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内 容 提 要 


本 书 介绍 了 70 多 种 学 习 Python 开源 教学 库 NumPy 的 有 趣 方法 ， 教 会 读者 如 何 安装 和 使 用 NumPy， 并 
了 解 其 他 一 些 相 关 概念 ， 进 而 掌握 NumPy arrays 及 其 通用 功能 ， 书 中 的 例子 还 涉及 Matplotlib 、SciPy 等 
Python 科学 计算 生态 系统 中 的 其 他 重要 软件 。 此 外 , 还 介绍 了 NumPy 和 其 他 软件 的 交互 、 性 能 分 析 和 调试 、 
软件 测试 和 Cython 等 比较 高 阶 的 话题 。 

本 书 的 目标 读者 是 对 Python 和 NumPy 有 基本 了 解 ， 并 且 和 希望 自己 的 水 平 能 更 上 一 层 楼 的 科技 工作 者 、 
工程 师 、 程 序 员 和 分 析 师 。 
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译 者 厅 


这 是 我 的 第 一 本 译 著 。 本 着 先 易 后 难 的 原则 ,我 从 图 灵 社 区 开放 出 版 的 书目 中 ,选择 了 NumPy 
Cookbook 这 本 书 来 翻译 。 虽 然 我 对 NumPy 不 太 熟 悉 ， 但 想来 这 样 一 本 200 多 页 、 介 绍 单一 小 众 软 
件 的 书 ， 翻 译 起 来 应 该 没 多 大 难度 。 很 遗憾 ， 随 着 翻译 工作 的 进行 ,我 发 现 自己 最 初 的 想法 完全 
不 对 。 


首先 ， 用 小 众 软件 形容 NumPy 并 不 妥当 。 作 为 Python 科学 计算 生态 系统 的 重要 组 成 部 分 ， 
NumPy 具 备 强大 的 多 维 数组 功能 ， 提 供 了 十 分 丰富 的 对 数组 进行 处 理 和 操作 的 函数 集 。 可 以 说 ， 
用 Python 做 科学 计算 时 ， 到 处 可 以 看 到 NumPy 的 号 影 (看 过 图 灵 出 版 的 《机 器 学 习 实 战 》 一 书 的 
读者 应 该 会 同意 这 个 说 法 )。 因 此 ， 如 果 你 想 使 用 Python 做 科学 计算 相关 的 工作 ，NumPy 是 必须 
要 掌握 的 。 


其 次 ,本 书 并 不 只 介绍 NumPy 这 一 个 软件 。Python 科 学 计算 生态 系统 中 的 其 他 重要 软件 ， 如 
数值 计算 库 SciPy、 符 号 计算 库 SymPy 、 绘 图 库 Matplotlib 和 各 种 scikit 项 目 ( 机 器 学 习 、 统 计 建 模 、 
图 像 处理 、 数 据 分 析 ) 等 ， 也 都 有 不 同 程度 的 介绍 。 此 外 ， 还 介绍 了 NumPy 和 其 他 软件 的 交互 、 
性 能 分 析 和 调试 、 软 件 测试 和 Cython 等 比较 高 阶 的 话题 。 总 之 , 本 书 涉及 的 话题 相当 广泛 ， 这 给 
翻译 工作 带 来 了 很 大 的 麻烦 。 我 除了 要 翻 看 1400 多 页 的 NumPy 官 方 参考 文档 之 外 , 还 要 浏览 书 中 
介绍 的 各 种 软件 的 参考 文档 和 源 代码 。 希 望 这 对 读者 是 好 事 , 一 下 可 以 了 解 Python 科 学 计算 生态 
系统 中 这 人 么 多 内 容 。 


虽然 本 书 介绍 了 如 此 多 的 内 容 , 但 篇 幅 却 不 长 。 本 书 的 大 多 数 攻略 都 是 一 个 完整 的 、 可 以 运 
行 的 程序 ,作者 对 各 种 知识 点 的 介绍 都 很 简洁 , 有 些 地 方 只 是 点 到 为 止 , 甚至 有 些 地 方 只 是 给 出 
一 个 维基 百科 的 网 页 链接 让 你 自己 去 看 。 和 希望 读者 不 要 因为 有 些 细 节 没 摘 明 白 而 感到 诅 丧 ,而 是 
把 这 本 书 看 作 一 个 了 解 Python 科学 计算 生态 系统 的 快速 通道 。 在 此 基础 上 ， 对 于 感 兴趣 的 内 容 ， 
自己 再 进一步 深入 学 习 。 例 如 ， 看 过 《机 器 学 习 实 战 》 的 读 考 ， 很 可 能 对 本 书 介绍 的 scikit-learn 
项 目 感 兴趣 , 那 就 去 scikit-learn.org 看 看 官方 的 参考 文档 ,然后 去 Github 把 源 代 码 下 载 下 来 深入 研 


罕 吧 。 


本 书 用 了 一 定 的 篇 幅 介 绍 各 种 软件 在 各 种 操作 系统 中 的 安装 过 程 。 我 认为 读者 不 必 这 样 做 ， 
推荐 大 家 直接 安装 一 个 Python 的 发 行 版 本 , 例如 EPD ( Canopy )、Python(x,y) 或 Anaconda。 本 书 需 
要 用 到 的 大 多 数 软件 这 些 发 行 版 中 都 有 ， 然 后 再 参考 相关 的 攻略 ， 缺 什么 安装 什么 , 这样 比较 有 
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效率 。 我 选用 的 是 Anaconda， 使 用 效果 良好 。 


虽然 翻译 过 程 没有 想象 的 顺利 ,但 我 本 人 还 是 因此 收获 颇 丰 。 收 获 之 一 是 对 Python 生态 系统 
更 加 了 解 了 。Python 算 是 比较 老 的 脚本 编程 语言 了 ， 长 期 以 来 ， 我 对 Python 的 使 用 也 仅 限 于 快速 
做 一 些 简单 的 数据 处 理工 作 。 通过 这 两 个 多 月 对 相关 资源 的 广泛 涉猎 , 我 感觉 到 了 这 个 不 算 年 轻 
的 编程 语言 的 迅猛 发 展 势头 。 我 本 人 非常 看 好 Python 开源 科学 计算 生态 系统 的 发 展 潜力 。 另 外 一 
个 收获 是 ,我 发 现 本 书 居然 和 大 数据 、 云 计算 和 物 联 网 等 时 丢 概 念 都 有 点 关系 ,满足 了 我 学 习 了 
解 新 事物 的 嗜好 。 本 书 用 比较 多 的 篇 幅 介 绍 了 数据 分 析 相 关 的 内 容 , 也 在 介绍 谷歌 应 用 程序 引擎 
和 PiCloud 等 内 容 时 涉及 了 云 计算 的 话题 , 但 看 似 和 物 联网 没关系 。 而 实际 上 , Python 在 物 联网 方 
面 的 应 用 实例 已 经 比较 多 了 。 物 联网 终端 设备 会 产生 大 量 的 数据 , 要 求 上 位 机 软件 有 强大 的 数据 
处 理 能 力 。Python 作 为 一 个 “胶水 语言 ”， 既 可 以 方便 地 与 各 种 物 联 网 终端 的 硬件 接口 程序 打 交 
道 , 也 可 以 方便 地 使 用 “NumPy 及 它 的 小 伙伴 们 ”在 本 地 或 在 云端 对 数据 进行 处 理 ， 是 做 物 联网 
应 用 的 理想 编程 语言 。 


现在 相关 的 图 书 资料 还 相当 缺乏 。 本 书 作者 显然 想 在 第 一 时 间 和 大 家 分 享 他 的 知识 , 因此 本 
书 的 有 些 地 方 有 一 定 的 改进 空间 ,甚至 还 有 一 些 错误 。 在 翻译 过 程 中 , 我 已 经 修改 了 多 处 比较 明 
显 的 小 错误 , 希望 中 文 版 看 上 去 并 不 比 英文 版 难 懂 。 因 为 译 者 水 平 精力 都 有 限 ， 可 能 会 在 翻译 过 
程 中 引入 新 的 错误 ， 奶 请 大 家 在 阅读 过 程 中 发 现 问题 后 不 音 赐教 。 既 可 以 在 图 灵 社 区 提交 勘误 ， 
也 可 以 用 email 向 我 反馈 ( czhang@shnu.edu.cn )。 非 常 感谢 ! 


顺便 说 一 下 , 我 觉得 本 书 也 适合 作为 普通 高 等 院 校 任意 选修 课 的 教材 。 我 准备 面向 本 科 生 开 
设 一 门 名 为 “Python 数据 分 析 ” 的 选修 课 ， 计 划 安 排 36 个 学 时 ， 全 部 在 机 房 上 课 。 通 过 攻略 的 方 
式 组 织 教 学 内 容 比 较 符合 现在 大 学 生 的 学 习习 惯 ,希望 能 有 比较 好 的 实施 效果 。 

最 后 要 感谢 图 灵 公司 武 卫 东 、 朱 钢 、 岳 新 欣 和 姜 新 农 等 出 版 界 同仁 的 帮助 ,感谢 各 位 在 翻译 
和 审 校 等 环节 的 辛勤 付出 。 感 谢 上 海 师范 大 学 科技 处 、 教 务 处 和 信息 与 机 电工 程 学 院 相关 领导 和 
同事 的 支持 。 感 谢 智 翔 集团 张 钦 礼 总 经 理 提供 的 各 种 帮助 和 便利 条 件 。 感 谢 我 的 家 人 对 我 的 支持 。 


张 崇明 
2013 年 7 月 于 上 海 
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了 中 


前 


作为 NumPy 的 使 用 者 ， 我 们 正 生活 在 一 个 令 人 兴奋 的 时 代 。 每 周 甚至 每 天 ， 似 乎 都 有 新 的 
NumPy 相 关 的 开发 进展 引起 我 们 的 关注 。 就 在 本 书写 作 期 间 ，NumFOCUS 基 金 会 (NumPy 
Foundation of Open Code for Usable Science ) 成 立 了 ,基于 LLVM 框 架 并 且 支 持 NumPy 的 动态 Python 
编译 需 项 目 Numba 宣 告 启动 ， 谷 歌 公 司 在 其 云 计算 产品 Google App Engine 中 也 增加 了 对 NumPy 
的 支持 。 


我 们 预计 ，NumPy 将 会 改进 对 GPU 和 CPU 集群 的 并 发 性 支持 ， 类 似 OLAP 的 查询 操作 也 将 有 
可 能 支持 NumPy 数 组 类 型 的 使 用 。 


这 是 一 个 好 消息 。 不 过 我 们 也 要 意识 到 ， 在 Python 科学 软件 生态 系统 中 ，NumPy 只 是 其 中 一 
员 。 除了 NumPy, 还 有 SciPy、Matplotlib (一 个 非常 有 用 的 Python 绘图 库 )、IPython (一 个 交互 式 
Shell ) 和 Scikits 等 。 在 Python 生态 系统 之 外 ,诸如 R、C 和 Fortran 等 编程 语言 也 非常 流行 。 我 们 将 
会 讨论 与 这 些 编程 环境 交换 数据 的 细节 。 


本 书 内容 


第 1 章 “ 使 用 IPython” 介 绍 了 IPython 的 使 用 。IPython 是 一 个 工具 集合 ， 因 为 它 的 Shell 而 为 人 
所 知 。 基 于 Web 的 notebook 是 个 令 人 兴奋 的 新 特性 ， 我 们 将 会 对 此 做 详细 介绍 。 在 Matlab 和 
Mathematica 软 件 中 都 有 类 似 的 notebook 界 面 ,但 在 IPython 中 我 们 是 在 浏览 器 里 使 用 一 个 开源 且 免 
费 的 notebook。 


第 2 章 “ 高 级 索引 和 数组 概念 ”介绍 了 NumPy 中 高 级 而 巧妙 的 索引 技术 。 由 于 使 用 了 性 能 优 
异 的 索引 技术 ，NumPy 中 的 数组 类 型 的 实现 非常 高 效 ， 并 且 易 于 使 用 。 
第 3 章 “ 常 用 函数 ”对 每 一 位 NumPy 使 用 者 都 应 该 知道 的 最 基本 的 函数 进行 了 介绍 。NumPy 
中 包含 的 函数 太 多 了 ,不 可 能 在 本 书 中 一 一 提 及 。 

第 4 章 “NumPy 与 其 他 软件 的 交互 ”。 在 实际 工作 中 ,我 们 需要 用 到 各 种 编程 语言 、 库 文件 和 
工具 软件 , 数量 多 得 惊人 。 一 些 软件 运行 在 云端 , 男 一 些 运行 在 本 机 或 者 远程 服务 器 上 。 知 道 怎 
在 这 样 的 软件 环境 中 使 用 NumPy 是 十 分 重要 的 ， 其 重要 性 不 亚 于 能 够 编写 独立 运行 的 NumPy 程 序 。 
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第 5 章 “ 声 音 和 图 像 处理 ” 让 你 从 一 个 不 同 的 视角 看 待 NumPy。 看 过 本 章 内 容 后 ， 当 你 想到 
NumPy 时 ， 很 可 能 同时 联想 到 声音 和 图 像 。 

第 6 章 “ 特 殊 类 型 数组 与 通用 函数 ”探讨 特殊 类 型 数组 和 通用 函数 等 话题 。 这 将 有 助 于 我 们 
学 习 怎 样 进 行 字符 串 操作 、 忽 略 不 合法 的 数值 和 存储 异 构 数 据 。 

第 7 章 “ 性 能 分 析 与 调试 ”将 介绍 几 个 实用 的 性 能 分 析 和 调试 工具 ， 它 们 是 编写 优秀 的 应 用 
软件 所 必需 的 工具 。 

第 8 章 “ 质 量 保证 ”将 讨论 单元 测试 、 模 拟 和 BDD 等 常用 方法 与 技术 ， 还 会 介绍 NumPy 中 的 
测试 工具 ， 因 为 质量 保证 值得 我 们 密切 关注 。 

第 9 章 “ 用 Cython 为 代码 提速 ”从 NumPy 的 视角 展示 了 Cython 是 怎样 工作 的 。Cython 试 图 把 C 
语言 的 速度 优势 和 Python 的 强大 功能 结合 起 来 。 

第 10 章 “有 趣 的 Scikits” 对 几 个 最 有 用 的 Scikits 项 目 作 了 简明 的 介绍 。Scikits 同 样 属 于 邻 人 着 
迷 的 Python 科学 计算 生态 系统 。 


本 书 需要 的 资源 


为 了 运行 本 书 的 范例 程序 ， 你 需要 有 新 近 版 本 的 NumPy， 这 意味 着 你 也 需要 有 支持 该 版 本 
NumPy 的 Python 版 本 。 其 他 需要 用 到 的 软件 包 的 安装 方法 会 在 书 中 介绍 。 


本 书 读者 


本 书 的 目标 读者 是 对 Python 和 NumPy 有 基本 了 解 , 并 且 硕 望 自己 的 水 平 能 更 上 一 层 楼 的 科 
技工 作者 、 工 程 师 、 程 序 员 和 分 析 师 。 此 外 ， 也 需要 读者 对 数学 和 统计 学 比较 熟悉 ， 或 至 少 有 


Y 卸 
点 兴 虹 。 


排版 约定 


本 书 针对 不 同 种 类 的 信息 , 采用 了 不 同 的 排版 样式 。 下 面 是 一 些 不 同 排版 样式 的 例子 及 对 应 
的 说 明 。 


正文 中 的 代码 文字 会 这 样 显 示 :“ 我 们 可 以 使 用 incluae 指 令 将 其 他 内 容 包括 进来 。 
代码 段 会 这 样 显示 : 


[default] 
exten => s,1,Dial (Zap/1|30) 
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exten => s,2,Voicemail(u100) 
exten => s,102,Voicemail (b100) 
exten => i,1,Voicemail(s0) 


当 我 们 想 让 你 关注 代码 段 的 特定 部 分 时 ， 相 关 的 行 或 条 目 会 加 粗 显示 : 


[default] 

exten => s,1,Dial (Zap/1|30) 
exten => s,2,Voicemail(u100) 
exten => s,102,Voicemail (b100) 
exten => i,1,Voicemail(s0) 


命令 行 输入 或 输出 会 这 样 显示 : 


# cp /usr/src/asterisk-addons/configs/cdr mysql.conf.sample 
/etc/asterisk/cdr mysql.conf 


新 术语 用 楷体 字 显 示 。 重 要 的 英文 文字 会 加 粗 显示 。 例如， 显示 在 屏幕 上 、 菜 单 里 或 对 话机 
中 的 文字 在 正文 中 出 现时 ， 会 这 样 排版 :“ 点 击 Next 按 钮 进入 下 一 屏 。 


| 人 警告 或 重要 的 说 明 在 这 里 显示 。 ] 


TH 


| 提示 和 小 技巧 在 这 里 显示 。 


读者 反馈 

我 们 很 欢迎 读者 的 反馈 。 请 告诉 我 们 你 觉得 本 书 怎 么 样 , 你 喜欢 哪些 内 容 , 不 喜欢 哪些 内 容 。 
读者 的 反馈 对 于 我 们 策划 出 版 对 读者 真正 有 用 的 图 书 至 关 重 要 。 

如 果 向 我 们 提供 一 般 的 反馈 , 给 feedback@packtpub.com 这 个 邮箱 发 邮件 即 可 。 请 在 邮件 的 标 
题 中 指明 相应 的 书 名 。 

如 果 你 擅长 某 类 选 题 并 且 有 兴趣 写 书 或 者 参与 书籍 的 撰 稿 工作 ， 请 访问 www.packtpub. 
com/authors， 看 看 我 们 的 作者 指南 。 


客户 支持 


你 现在 是 Packt 出 版 社 图 书 产品 的 尊敬 用 户 ， 为 使 你 的 购买 物 超 所 值 ， 我 们 会 为 你 提供 一 些 
增值 服务 。 
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下 载 范 例 代 码 

访问 http:/www.packtpub.com 并 登录 账号 ， 你 可 以 下 载 到 所 有 已 购 图 书 中 的 范例 代码 。 如 果 
你 是 在 其 他 地 方 购买 的 本 书 ， 可 以 访问 http:/www.packtpub.com/support 并 进行 注册 ， 相 关 的 范例 
代码 会 直接 通过 邮件 发 给 你 。 

勘误 

尽管 我 们 已 经 非常 小 心 谨慎 ,尽力 确保 内 容 的 准确 性 ,但 错误 还 是 不 可 避免 。 如 果 你 在 书 中 
发 现 了 错误 ( 可 能 是 文字 或 者 代码 方面 的 错误 )， 并 向 我 们 报告 ， 我 们 将 感激 不 尽 。 这 样 做 ， 可 
以 使 其 他 读者 免 受 这 些 错误 的 困扰 ， 帮助 改善 该 书 的 后 续 版 本 。 如 果 你 发 现 了 任何 错误 , 请 访问 
http://www.packtpub.com/support， 选 择 书 名 ， 点 击 “ 勘 误 提 交 表 ”和 链接， 然后 输入 你 所 发 现 错误 
的 详细 内 容 。 一旦 你 指出 的 错误 被 确认 ,你 的 提交 就 会 被 接受 ,勘误 信息 就 会 上 传 到 我 们 的 网 站 
或 添加 到 该 书 勘误 区 中 已 经 存在 的 勘误 列表 中 。 

关于 盗版 行为 

对 于 各 种 媒体 ， 互 联网 上 受 版 权 保护 的 材料 都 长 期 面临 非法 复制 的 问题 。Packt 非 常 重视 版 
权 保 护 和 版 权 许可 。 如 果 你 在 网 上 看 到 Packt 图 书 的 任何 形式 的 非法 复制 ， 请 立即 向 我 们 提供 网 
址 信息 ， 以 便 我 们 及 时 补救 。 

请 通过 copyright@packtpub.com 联 系 我 们 ， 并 提供 疑似 盗版 材料 的 链接 信息 。 

我 们 感谢 你 的 帮助 。 这 将 保护 我 们 作者 的 利益 ， 也 使 我 们 有 能 力 为 你 提供 有 价值 的 内 容 。 

如 果 你 有 疑问 


如 果 你 对 本 书 有 任何 疑问 ， 可 以 通过 questions@packtpub.com 联 系 我 们 ， 我 们 会 尽力 为 你 
解答 。 


证 
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使 用 IPython 


本 章 主 要 内 容 : 


1.1 引言 


口 安装 IPython 

口 使 用 IPython 的 shell 

口 阅读 手册 页 

口 安装 Matplotlib 

口 运行 基于 Web 的 notebook 

口 从 notebook 导 出 脚本 和 数据 
口 导入 脚本 和 数据 到 notebook 
口 配置 notebook 服 务 器 

口 初探 SymPy 配 置 


IPython 是 一 个 免费 、 开 源 的 项 目 ， 支 持 Linux、Unix、Mac OS X 和 Windows 平 台 ， 其 官方 网 
址 是 http://ipython.org/。IPython 的 作者 只 要 求 你 在 用 到 IPython 的 科技 著作 中 注 明 引用 即 可 。 
IPython 中 包括 各 种 组 件 ， 其 中 的 两 个 主要 组 件 是 : 


口 基于 终端 方式 和 基于 Qt 的 交互 式 Python shell 
口 支持 多 媒体 和 绘图 功能 的 基于 Web 的 notebook ( 版 本 号 为 0.12 以 上 的 IPython 支 持 此 功能 


与 IPython 兼 容 的 Python 版 本 是 2.53"、2.6、2.7、3.1 和 3.2。 


不 需要 本 


也 安装 ， 你 可 以 在 云端 尝试 使 用 IPython， 网 址 为 http:/www.pythonanywhere.com/ 


try-ipython/。 和 本 地 安装 的 IPython 相 比 ， 云 端 版 本 会 稍 有 时 延 , 使 用 体验 稍 逊 , 但 已 具备 [Python 
交互 式 shell 的 绝 大 多 数 功能 。 在 云端 版 本 中 还 可 使 用 vivim 编 辑 器 。 如 果 你 喜欢 vi， 这 自然 是 个 
很 棒 的 功能 ， 你 可 以 在 Ipython 会 话 过 程 中 保存 和 编辑 文件 。 只 有 vi 编辑 器 可 用 ， 对 我 来 讲 不 是 什 


@ Python 的 较 新 版 本 已 不 支持 Python 2.5。 一 一 译 者 注 
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么 问题 ， 我 本 人 对 Emacs 之 类 的 其 他 编辑 器 并 不 感 兴趣 。 


1.2 ”安装 1IPython 


IPython 有 许多 种 安装 方式 ， 这 主要 和 使 用 什么 操作 系统 有 关 。 基 于 终端 的 shell 组 件 依 赖 于 
readline 的 存在 ， 基 于 Web 的 notebook 需 要 用 到 tornado 和 zmq。 


除了 安装 IPython， 我 们 还 需要 安装 setuptools， 其 中 包含 了 easy_install 命 令 。easy_install 是 
Python 默认 的 标准 化 的 包 管 理 器 。easy install 安 装 好 之 后 ， 继 续 安 装 pip。pip 和 easy_install 命 令 的 
功能 类 似 ， 但 增加 了 一 些 选 项 ， 例 如 印 载 。 


1.2.1 具体 步骤 


本 节 将 介绍 在 Windows 、Mac OS X 和 Linux 环 境 中 怎样 安装 Python， 怎 样 使 用 easy_install 和 
pip 安 装 IPython 及 其 依赖 文件 ， 以 及 怎样 直接 用 源 文件 安装 。 


> 在 Windows 中 安装 IPython 和 setuptools 


在 IPython 的 官网 可 以 下 载 适用 于 Python 2 和 Python 3 的 二 进 制 Windows 安 装 文件 。 具 体 安 装 过 
程 请 参阅 http://ipython.org/ipython-doc/stable/install/install.html#windows。 


从 https://pypi.python.org/pypi/setuptools#files 获 得 setuptools 的 安装 文件 并 完成 安装 。 之 后 继续 
安装 pip， 具 体 步 又 为 : 


cd C:\Python27\scripts 
python .\easy install-27-script.py pip 


> 在 Mac OS X 中 安装 IPython 


如 有 必要 ， 请 先 安装 苹果 开发 工具 Xcode， 可 以 在 Mac 电 脑 附 带 的 OSX DVD 光 盘 中 或 者 苹果 
应 用 商店 中 找到 Xcode。 按 照 本 节 后 面 的 说 明 ， 使 用 easy_install 或 pip 安 装 IPython，, 或 者 从 源 文件 


安装 。 


> 在 Linux 中 安装 IPython 
Linux 的 发 行 版 本 众多 ， 想 不 能 一 一 列举 。 


口 Debian 版 本 的 安装 命令 如 下 : 


su - aptitude install ipython python-setuptools 


口 Fedora 版 本 的 安装 命令 如 下 : 


su - Yum install ipython python-setuptools-devel 
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口 Gentoo 版 本 的 安装 命令 如 下 : 


su - emerge ipython 


口 Ubuntu 版 本 的 安装 命令 如 下 : 


sudo apt-get install ipython python-setuptools 


> 使 用 easy_install 或 pip 安 装 IPython 
使 用 easy_install 安 装 IPython 和 本 章 中 各 种 攻略 所 需要 的 依赖 文件 ， 使 用 以 下 命令 : 
easy_install ipython pyzmq tornado readline 
或 者 你 可 以 先 用 easy_install 安 装 pip， 在 终端 界面 中 键入 以 下 命令 : 
easy_install pip 
之 后 使 用 pip 安 装 IPython， 命 令 如 下 : 
sudo pip install ipython pyzmq tornado readline 
> 从 源 文件 安装 
如 果 你 想 使 用 最 新 的 开发 版 本 ， 从 源 文件 安装 是 最 适合 的 。 
1. 从 https:/Wgithub.conyipython/ipython/downloads 下 载 最 新 的 压缩 包 。 
2. 对 下 载 的 文件 解压 缩 ， 获 得 源 文件 : 


tar XZE ipython-<version>.tar.gz 


3. 如 果 你 已 经 安装 了 Git， 也 可 以 通过 克隆 Git 版 本 仓库 的 方式 获得 源 文 件 : 


$ git clone https://github.com/ipython/ipython.git 
4. 进入 ipython 目 录 : 
cd ipython 
5. 运行 安装 脚本 。 你 可 能 需要 使 用 sudo 运 行 此 脚本 ,命令 如 下 : 


sudo setup.py install 


1.2.2 ”攻略 小 结 


本 节 介 绍 了 安装 IPython 的 各 种 方法 。 大 多 数 方法 安装 的 是 最 新 的 稳定 版 本 。 如果 选 择 从 源 文 
件 安装 ， 你 安装 的 就 是 最 新 的 开发 版 本 。 
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1.3 ”使 用 1IPython 的 shell 


科学 家 和 工程 师 习惯 于 做 各 种 实验 。 正 是 一 些 总 有 实验 想法 的 科学 家 编写 了 IPython。 IPython 
提供 的 交互 式 实验 环境 ， 使 其 具备 了 与 Matlab 、Mathematica 、Maple 和 了 R 类 似 的 使 用 体验 。 


IPython 的 shell 具 有 以 下 特性 。 


口 代码 补 全 

口 历史 记录 机 制 

口 谋 和 人 式 编辑 

口 使 用 srun 调 用 外 部 Python 脚本 的 能 
口 访问 系统 命令 

口 bylab 选 项 开关 

口 访问 Python 的 调试 器 和 性 能 分 析 需 


本 节 具 体 介 绍 怎样 使 用 IPython 的 shell。 


使 用 pylab 选 项 开关 可 以 自动 引入 SciPy、NumPy 和 Matplotlib 软 件 包 。 如 果 不 使 用 这 个 选项 开 
就 需要 自己 引入 这 些 软件 包 。 


我 们 只 需要 在 命令 行 输入 以 下 指令 : 


兴 


$ ipython -pylab 


Type "copyright", "credits" or "license" for more information. 


IPython 0.12 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about 'object', use 'object??' for extra details. 


Welcome to pylab, a matplotlib-based Python environment [backend: MacOSX]. 
For more information, type 'help(pylab)'. 

In [1]: Guit() 

quit() or Ctrl + D quits the IPython shell. 


> 保存 会 话 
我 们 也 许 需 要 回溯 做 过 的 实验 。 要 在 IPython 中 保存 会 话 以 供 将 来 使 用 ， 只 需 输 入 以 下 命令 : 
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In [1]: %logstart 
Activating auto-logging. Current session state plus future input saved. 


Filename : ipython log.py 


Mode : rotate 
Output logging : False 
Raw input log : False 
Timestamping : False 
State : active 


关闭 日 志 记 录 的 命令 如 下 : 


In [9]: %logoff 
Switching logging OFF 


> 执行 系统 shell 命 令 


在 使 用 默认 设置 的 IPython 环 境 中 执行 系统 shell 命 令 时 ， 要 在 系统 命令 前 加 ! 前 级 。 例 如 ， 以 
下 输入 将 获得 当前 日 期 : 
In [1]: !date 


实际 上 ， 以 ! 为 前 级 的 任何 内 容 都 被 发 送 到 了 系统 shell。 命 令 执行 后 的 输出 结果 也 可 以 进行 
保存 ， 如 下 所 示 : 


In [2]: thedate = !date 
In [3]: thedate 


p> 显示 历史 记录 
使 用 %hist 命 令 ， 可 以 显示 命令 的 历史 记录 ， 例 如: 


In [1]: a=2+2 


In [2]: a 
Out[2]: 4 


In [3]: %hist 


a=2+2 
a 
%hist 


这 是 命令 行 接口 (CLI ) 环境 的 一 个 常见 特性 。 使 用 -g 选 项 可 以 实现 对 历史 记录 的 搜索 : 


In [5]: %hist -ga = 2 
1:a=2+2 
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下 载 范例 代码 
» . 
访问 http://www.packtpub.com 并 登录 账号 ， 可 以 下 载 到 所 有 已 购 图 书 中 的 范 
例 人 代码。 如果 你 是 在 其 他 地 方 购买 的 本 书 ， 可 以 访问 http://www.packtpub.com/ 


support 并 进行 注册 ， 相 关 的 范例 代码 会 直接 用 电子 邮件 发 给 你 。 


1.3.2 ”攻略 小 结 


我 们 看 到 了 若干 Magic 函 数 ( 所 谓 的 “魔法 函数 ”) 的 实际 运用 。 这 些 函 数 以 $ 字 符 开始 。 如 
果 Magic 函 数 只 用 作 单 行 命令 ， 可 以 选择 省 略 g%。 


1.4 阅读 手册 页 


进入 IPython 的 pylab 模 式 后 , 可 以 使 用 help 命 令 查 看 NumPy 中 各 种 函数 的 手册 页 。 不 需要 记 住 
函数 的 完整 名 称 ， 只 需 键入 开头 的 几 个 字符 ， 然 后 使 用 tab 键 自动 补 全 函数 名 。 作 为 示例 ， 让 我 
们 看 看 arange 函 数 的 手册 页 有 什么 信息 。 


1.4.1 具体 步骤 
浏览 可 获得 的 信息 ， 有 以 下 两 种 方法 。 
p> 调用 help 函 数 


使 用 help 命 令 ， 键 入 函数 名 的 前 面 几 个 字符 ， 然 后 按 tab 键 : 


In [1]: help ar 

arange arcsin arctan2 argmin around array_equal array_split 
arccos arcsinh arctanh argsort array array_equiv array_str 
arccosh arctan argmax arqwhere array2string array_repr arrow 


> 使 用 问号 查询 


另 一 种 方法 是 在 函数 名 后 面 添加 一 个 问号 。 你 需要 知道 函数 的 完整 名 称 ， 但 不 再 需要 键入 
helpbp 了 。 


In [3] : arange? 


1.4.2 ”攻略 小 结 


代码 补 全 功能 依赖 于 readline， 你 要 确信 已 经 安装 了 readline。 使 用 问号 查询 方式 ， 你 看 到 的 
是 docstrings 中 的 信息 。 
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1.5 安装 Matplotlib Co 


Matplotlib 是 一 个 非常 有 用 的 绘图 库 ， 下 一 篇 攻略 就 将 用 到 它 。Matplotlib 依 赖 于 NumPy 的 存 
在 ， 但 十 有 八 九 你 已 安装 了 NumPy。 


具体 步骤 
本 节 将 介绍 怎样 在 Windows、Linux 和 Mac 环 境 中 安装 Matplotlib， 以 及 怎样 从 源 文 件 安 装 。 
> 在 Windows 环 境 中 安装 Matplotlib 


可 以 使 用 Enthought 发 行 版 进行 安装 ， 详 见 http:/www.enthought.com/products/epd.php。 


可 能 需要 把 msvcp71.dl 文件 放 到 C:NWindows\system32 目录 下 。 可 以 访问 http:/www.dll- 
files.com/dllindex/dll-files.shtml?msvcp71 下 载 这 个 dll 文 件 。 


> 在 Linux 环 境 中 安装 Matplotlib 
让 我 们 看 看 怎样 在 各 种 Linux 发 行 版 本 中 安装 Matplotlib。 
口 Debian 和 Ubuntu 版 本 的 安装 命令 如 下 : 
sudo apt-get install python-matplot1lib 
口 Fedora/Redhat 版 本 的 安装 命令 如 下 : 
su - yum install python-matplot1ib 
> 从 源 文件 安装 


从 Sourceforge ( http://sourceforge.net/projects/matplotlib/files/ ) 下 载 最 新 的 tar.gz 格 式 的 源 文件 ， 
或 者 使 用 如 下 命令 直接 从 Git 版 本 仓库 下 载 。 


git clone git://github.com/matplotlib/matplotlib.git 


下 载 完毕 后 ， 像 往常 一 样 使 用 如 下 命令 构建 和 安装 Matplotlib: 


cd matplotlib 
python setup.py install 


> 在 Mac 环 境 中 安装 Matplotlib 


从 http://sourceforge.net/projects/matplotlib/files/matplotlib/ 获 取 最 新 的 DMG 文 件 并 进行 安装 。 
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1.6 ”运行 基于 Web 的 notebook 


新 近 的 了 Python 版 本 增加 了 一 个 令 人 兴奋 的 新 特性 一 一 基于 Web 的 notebook。 一 个 被 称 为 notebook 
服务 需 的 程序 可 以 通过 Wetb 方 式 提供 notebook 界 面 。 现 在 我 们 可 以 启动 一 个 notebook 服 务 需 ， 获 
得 一 个 基于 Web 的 IPython 运 行 环境 。notebook 除 了 有 具备 常规 IPython 环 境 中 的 大 多 数 特 性 ,还 包括 
以 下 新 特性 。 

口 显示 图 像 和 庶 人 式 图 表 


口 在 文本 单元 格 中 使 用 HTML 和 Markdown 
口 notebook 的 导入 和 导出 


1.6.1 准备 工作 


首先 要 确保 已 经 安装 了 所 有 必需 的 软件 。notebook 依 赖 于 tornado 和 zmq 的 存在 。 具 体 请 参见 
] 2 


1.6.2 ”具体 步骤 
> 运行 notebook 
键入 如 下 命令 ， 启 动 一 个 notebook。 
$ ipython notebook 


[NotebookApp] Using existing profile dir: u'/Users/ivanidris/. 
ipython/profile default' 

[NotebookApp] The IPython Notebook is running at: 
http://127.0.0.1:8888 

[NotebookApp] Use Control-C to stop this server and shut down 
all kernels. 


如 你 所 见 ， 我 们 用 的 是 默认 配置 。notebook 服 务 右 运行 在 本 地 主机 的 8888 端 口 。 本 音 后 续 会 
介绍 怎么 修改 这 些 默 认 的 设置 。notebook 会 在 本 机 的 默认 浏览 器 中 打开 ,也 可 以 配置 使 用 其 他 浏 


览 器。 


IPI[y]: Notebook 


Drag files onto the list to import notebooks. New Notebook 
/Users/ivanidris 
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IPython 会 列 出 当前 目录 下 所 有 的 notebook 文 件 。 上 图 显示 ， 当 面目 录 下 没有 notebook 文 件 。 Ba 
使 用 快捷 键 CtrltC 可 以 停止 notebook 服 务 器 的 运行 。 


> 用 pylab 模 式 运 行 notebook 

用 pylab 模 式 运 行 notebook ， 使 用 如 下 命令 : 

$ ipython notebook --pylab 

这 样 可 以 自动 加 载 SciPy、NumPy 和 Matplotlib 模 块 。 

> 运行 notebook 时 使 用 能 入 式 图 表 

使 用 inline 指 令 可 以 在 notebook 的 单元 格 中 显示 和 傣 入 式 图 表 ， 命 令 如 下 。 


$ ipython notebook --pylab inline 


1. 创建 一 个 notebook 文 件 
点 击 New Notebook 按 钮 ， 创 建 一 个 新 的 notebook 文 件 。 


IP[y]: Notebook Untitled0 ”Last saved: Oct 01 7:53 PM 
File Edit View Insert Cell Kernel Help 
如 x 四 - : 4 Ff » a Code -| 
In [ ] 
2. 创建 一 个 数组 


使 用 arange 函 数 创建 一 个 数组 。 键 人 如 下 命令 并 按 下 Shift+Enter 键 。 


In [1]: 
键入 如 下 命令 并 按 下 Shiftr+Enter 键 ， 可 以 在 Out[2] 单 元 格 中 看 到 输出 结 


In [2]: 目 


Out[2]: array([0, 1l, 2, 3, 4, 5, 6]) 


3. 绘制 sinc 函 数 


把 数组 a 作为 sinc 函 数 的 参数 ， 其 结果 图 示 如 下 : 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


10 第 1 章 使 用 IPython 


In [3]: SAECEYY) 


Out[3]: [<matplotlib.lines.Line2D at 0x103d9c690>] 


1.6.3 ”攻略 小 结 


使 用 inline 选 项 ，Matplotlib 绘 制 的 图 表 将 直接 显示 在 输出 单元 格 中 。 结 合 使 用 pylab 模 式 ， 就 
不 需要 手动 引入 SciPy、NumPy 和 Matplotlib 模 块 。 


1.6.4 ”参考 阅读 


口 1.2 节 “安装 IPython” 


1.7 导出 基于 Web 的 notebook 

有 时 你 需要 和 朋友 或 同事 交换 notebook 中 的 内 容 。 基 于 Web 的 notebook 提 供 了 几 种 导出 数据 
的 方法 。 
具体 步骤 

notebook 的 导出 方式 有 以 下 几 种 : 

打印 选项 


Print 按 钮 并 不 是 真 的 用 来 打印 notebook 中 的 内 容 ， 而 是 允许 你 以 PDF 或 HTML 文档 的 形式 输 
出 notebook 的 内 容 。 


> 下 载 notebook 

使 用 Download 按 钮 , 可 以 下 载 notebook 中 的 内 容 到 指定 位 置 。 可 以 指定 下 载 内 容 的 保存 格式 
为 .py 文件 (常规 的 Python 程 序 ) 或 者 .ipynb 文 件 (JSON 格 式 )。 把 前 一 篇 攻略 中 创建 的 notebook 
导出 为 .ipynb 文 件 后 ， 其 内 容 如 下 所 示 : 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


1.7 导出 基于 Web 的 notebook 11 


{ 
"metadata": { 
"name": "Untitled1" 
}; 
"mbitormat"s a 
"worksheets": [ 
1 
"cells": [ 
{ 
"cell_type": "code", 
"collapsed": false， 
"Lnput": 上 
"plot (sinc(a))" 
ls 
"Janguage": "python", 
"outputs": [ 
{ 
"output_type": "pyout", 
"prompt_number": 3, 
"text": [ 
"[&lt;matplotlib.lines.Line2D at 
0x103d9c690&gt;]" 


"output_type": "display_data", 

"png": "iVBORWOKGgOoAAAANSUNEUgAAAXK 
AAAD9CAYAAABZVQOdHAAAABHNCSVQICAgIf... 
mgkAAAAASUVORKS5CYII=\n" 


} 
| 
"prompt_number": 3 


、 简明 起 见 ， 上 面 这 个 文件 的 部 分 内 容 已 被 省 略 。 该 文件 不 是 用 来 编辑 或 阅读 
的 ， 但 如 果 忽 略 其 中 表示 图 像 的 部 分 ， 还 是 很 容易 读 风 的 。 更 多 有 关 JSON 的 信 
息 请 参见 https:Wen.wikipedia.org/wikiJSON。 


保存 notebook 


使 用 Save 按 钮 ，notebook 的 内 容 将 自动 导出 到 一 个 JSON 格 式 的 .ipynb 文 件 中 。 该 文件 会 被 存 
储 到 你 启动 了 Python 的 目录 。 
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1.8 导入 基于 Web 的 notebook 


Python 脚本 可 以 导入 到 基于 Web 的 notebook 中 , 以 前 导出 的 notebook 文 件 显然 也 可 以 导入 到 当 


前 的 notebook 中 。 


具体 步骤 


把 Python 脚本 导入 到 notebook 中 的 步骤 如 下 。 


1. 把 Python 脚本 从 文件 资源 管理 器 ( Explorer 或 Finder ) 拖 虹 到 notebook 界 面 上 。vectorsum.py 
文件 (NumPy Beginner”s Guide 中 的 例 程 ) 被 拖 中 到 notebook 界 面 后 的 屏幕 截图 如 下 所 示 : 


vectorsum 


Upload | Cancel 


2. 点 击 Upload 按 钮 导入 该 脚本 程序 。 如 下 
幸 的 是 所 有 的 代码 都 被 放置 在 了 一 个 单元 格 中 ， 


图 所 示 ，IPython 可 以 很 好 地 完成 导入 工作 ,但 不 
至 少 在 本 书写 作 的 时 候 还 是 这 样 的 状况 。 


Edit View Jnsert Cell Kernel 


5 x ~ 白 
sr/bin/env/python 
import sys 


from datetime import datetime 
import numpy 


Help 


Code 


引 


Chapter 1 of Numpy Beginners Guide. 
This program demonstrates vector addition the Python way. 
Run from the command line as follows 

python vectorsum.py n 


where n is an integer that specifies the size of the vectors. 


The first Vector to be added contains the squares of 0 up to n. 
The second vector contains the cubes of 0 up to n. 


The program prints the last 2 elements of the sum and the elapsed time. 


def numpysum(n): 


a = numpy.arange(n) ** 2 
b = numpy.arange(n) ** 3 
c=a+b 


3. 给 脚本 添加 标签 ， 使 其 能 显示 在 多 个 单元 格 中 。 


为 了 能 把 代码 分 开放 置 到 多 个 单元 格 中 ,需要 使 用 特别 的 标签 。 这 些 标签 实际 上 是 Python 的 


注释 ， 看 上 去 有 点 像 XML 标 签 。 


需要 在 代码 的 起 始 位 置 添加 如 下 标签 : 
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# <nbformat>2</nbformat> 


该 标签 指明 了 notebook 标 签 格式 的 版 本 号 "。 每 个 新 的 代码 单元 都 用 如 下 标签 进行 标记 : 


# <codecell> 
标记 后 的 代码 如 下 所 示 : 


# <nbformat>2</nbformat> 
#!/usr/bin/env/python 


from datetime import datetime 
import numpy 


NumPy Beginner's Guide 第 1 章 例 程 
本 程序 演示 了 在 Python 中 怎样 实现 向 量 的 加 法 。 
在 命令 行 界面 中 运行 如 下 命令 : 


python vectorsum.py n 
nn 是 整数 ， 表 示 向 量 的 长 度 。 


第 1 个 向 量 中 放 的 是 0 到 n 的 平方 。 
第 2 个 向 量 中 放 的 是 0 到 nn 的 立方 。 
程序 会 显示 加 法 运算 结果 中 的 最 后 2 个 向 量 元 素 和 该 计算 过 程 所 耗费 的 时 间 。 


def numpysum(n): 
a = numpy.arange(n) ** 2 
b = numpy.arange(n) ** 3 
C=a+t+b 


FeEUrn 运 


def pythonsum(n): 
a = range(n) 

b = range(n) 

[e: 


a] 


for i in range(len(a)): 
人 al] 二, 全 六 
训 [ 生 ]? 三 站 党 尖 汪 
c.append(a[i] + b[i]) 


Teturrn & 


GD 较 新 版 本 的 notbook 使 用 的 版 本 号 是 3， 版 本 号 为 2 的 脚本 可 以 被 自动 转换 为 最 新 版 本 。 一 一 译 者 注 
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# <codecell> 
size = int(50) 


# <codecell> 

start = datetime.now() 

C = pythonsum(size) 

delta = datetime.now() - start 

print "The last 2 elements of the sum", c[-2:] 

print "PythonSum elapsed time in microseconds", delta.microseconds 


# <codecell> 

start = datetime.now() 

c = numpysum(size) 

delta = datetime.now() - start 

print "The last 2 elements of the sum", c[-2:] 

print "NumPySum elapsed time in microseconds", delta.microseconds 


依据 标签 所 在 的 位 置 ， 代 码 被 分 解 到 了 多 个 单元 格 中 ， 如 下 图 所 示 。 


In [ ]: size = int(50) 


In [ ]: start = datetime.now() 
c = pythonsum(size) 
delta = datetime.now() - start 
print “The last 2 elements of the sum", c[-2:] 


print "PythonSum elapsed time in microseconds", delta.microseconds 


In [ ]: start = datetime.now() 
c= numpysum(size) 
delta = datetime.now() - start 


print "The last 2 elements of the sum", c[-2:] 


print “NumPySum elapsed time in microseconds", delta.microseconds 


1.9 配置 notebook 服务 器 


需要 考虑 位 于 公共 域 中 的 notebook 服 务 器 的 安全 性 。 为 此 ， 需 要 设置 密码 和 使 用 SSL 证 书 来 
建立 连接 。 我 们 需要 用 证 书 实现 基于 https 的 安全 通信 。 更 多 相关 信息 请 见 https://en.wikipedia.org/ 
wiki/Transport _ Layer Security。 
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1.9.1 具体 步骤 Ce 


0 


下 述 步 又 介绍 了 怎样 配置 安全 的 notebook 服 务 器 。 
1. 生成 密码 。 可 以 在 IPython 环 境 中 生成 一 个 密码 。 启 动 一 个 新 的 IPython 会 话 ， 键 入 如 下 


人 -人 
六 令 : 


In [1]: from IPython.lib import passwd 


In [2]: passwd() 

Enter password: 

Verify password: 

Out[2]: 'shal:0e422dfccef2:84cfbcb 
b3ef95872fb8e23be3999c123£f862d856' 


输入 第 二 行 命令 后 ， 系 统 会 提示 你 输入 密码 。 你 需要 记 住 这 个 密码 。 之 后 会 输出 一 个 长 字符 
复制 该 字符 串 ， 后 面 我 们 要 用 到 它 。 


2. 创建 SSL 证 书 。 为 了 能 创建 SSL 证 书 ， 你 需要 让 openssl 命 令 位 于 可 访问 路 径 中 。 


openssl 命 令 行 工 具 的 设置 过 程 不 算 太 复杂 , 但 可 能 有 一 些 琼 手 的 细节 。 遗 憾 的 是 , 这 些 内 容 


超出 了 本 书 的 范围 ， 好 在 网 上 有 很 多 教程 可 以 为 你 提供 帮助 。 


执行 如 下 命令 ， 生 成 一 个 文件 名 为 mycertpem 的 证 书 : 


$ openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout 
mycert.pem -out mycert .pem 

Generating a 1024 bit RSA private key 

RR 十 十 十 十 十 十 

和 十 十 十 十 十 十 

Writing new private key to 'mycert .pem' 

----- You are about to be asked to enter information that will be 
incorporated into your certificate request. 

What you are about to enter is what is called a Distinguished Name 
or a DN. 

There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 

----- Country Name (2 letter code) [AU]: 

State or Province Name (full name) [Some-State] : 

Locality Name (eg, city) []: 

Organization Name (eg, company) [Internet Widgits Pty Ltd]: 
Organizational Unit Name (eg, section) []: 

Common Name (eg, YOUR name) []: 

Email Address []: 


openssl 会 提示 你 在 一 些 区 域 里 填写 内 容 ， 请 参阅 相关 的 手册 页 了 解 更 多 信息 。 
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3. 创建 一 个 服务 器 配置 。 使 用 如 下 命令 为 服务 器 创建 一 个 专用 的 配置 : 


ipython profile create nbserver 
4. 编辑 配置 文件 。 对 配置 文件 进行 编辑 。 在 本 例 中 , 配置 文件 所 在 的 位 置 是 ~/.ipython/profile_ 
nbserver/ipython notebook config.py。 


这 个 配置 文件 包括 很 多 行内 容 ， 这 里 就 不 列 出 了 。 我 们 至 少 需要 修改 如 下 几 行 内 容 : 


c.NotebookApp.certfile = u'/absolute/path/to/your/certificate' 
Cc.NotebookApp.password = u'shal:b...your password' 
CcC.NotebookApp.port = 9999 


注意 我 们 做 的 改动 是 ， 把 证 书 位 置 指向 了 我 们 刚才 创建 的 SSL 证 书 ， 设 置 了 密码 ， 并 且 把 端 
口号 改 为 9999。 
5. 启动 服务 器 。 使 用 如 下 命令 启动 服务 器 ， 检 查 所 做 的 修改 是 否 已 生效 。 


ipython notebook --profile=nbserver 


[NotebookApp] Using existing profile dir: u'/Users/ivanidris/. 
ipython/profile nbserver' 


[NotebookApp] The IPython Notebook is running at: 
https://127.0.0.1:9999 


[NotebookApp] Use Control-C to stop this server and shut down 


all kernels. 
服务 器 已 运行 在 9999 端 口 ， 你 需要 使 用 https 方 式 连接 到 该 服务 器 。 如 果 一 切 顺利 ,我 们 会 看 
到 一 个 登录 页 面 。 你 很 可 能 还 需要 接受 浏览 吕 发 来 的 一 个 安全 例外 警告 。 


LIPI[y]: Notebook 


Password: Sign in 


1.9.2 ”攻略 小 结 

我 们 为 公共 域 服务 器 创建 了 一 个 专用 的 配置 。IPython 中 已 有 一 些 配 置 样本 存在 , 例如 默认 配 
置 。 创 建 配 置 时 ， 会 在 .ipython 目 录 下 添加 一 个 profile <profilename> 文 件 夹 ， 文 件 夹 中 包括 配置 
文件 等 内 容 。 通 过 使 用 --profile=<profile_name> 命 令 行 选 项 ， 可 以 加 载 指定 的 配置 。 用 如 下 命令 
可 以 列 出 已 经 存在 的 配置 。 


ipython profile list 
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Available profiles in IPython: 
cluster 
math 
pysh 
python3 


The first request for a bundled profile will copy it 
into your IPython directory (/Users/ivanidris/.ipython), 
where you can customize it. 


Available profiles in /Users/ivanidris/.ipython: 
default 
nbserver 
sh 


1.10 初探 SymPy 配置 


IPython 中 包含 一 个 SymPy 配 置 的 样本 。SymPy 是 一 个 Python 的 符号 计算 库 。 例 如 ， 我 们 可 以 
利用 SymPy 来 化 简 代数 表达 式 或 做 微分 运算 ， 其 功能 类 似 于 Mathematica 和 Maple。 显 然 SymPy 是 
一 个 有 趣 的 软件 , 但 它 不 是 我 们 学 习 NumPy 的 过 程 中 必须 要 了 解 的 内 容 。 可 以 认为 本 节 是 一 个 可 
选 的 有 奖励 性 质 的 攻略 。 就 像 餐 后 甜点 一 样 ， 你 可 以 放心 地 跳 过 本 节 ， 虽 然 这 样 做 有 可 能 让 你 
错过 本 章 最 美妙 的 一 段 内 容 。 


1.10.1 准备 工作 


使 用 easy_install 或 pip 安 装 SymPy: 


easy_install sympy 
sudo pip install sympy 


1.10.2 ”具体 步骤 


1. 浏览 配置 文件 ， 其 所 在 位 置 是 ~/.ipython/profile sympy/ipython config.py。 具 体内 容 如 下 。 


C = get_ config!() 
app = c.InteractiveShellApp 


# This can be used at any point in a config file to load a sub 
config 

# and merge it into the current one. 

load_ subconfig('ipython config.py', profile='default') 


lines = LU 
from _ future _ import division 
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from sympy import * 

XX; Y, Z; t = symbols("x yy z t') 

[i symbols('k m n', integer=True) 
三 Oo, HK = SymDoLS("f og i, CLse=FUNCtion) 


# You have to make sure that attributes that are containers 
already 

# exist before using them. Simple assigning a new list will 
override 

# all previous values. 


IE hasattr(app, 'exec_ lines'): 
app.exec_ lines.append(lines) 
else: 
app.exec_ lines = [lines] 


# Load the sympy_printing extension to enable nice printing of 
Sympy expr's. 
IE hasattr(app, 'extensions'): 
app.extensions.append('sympyprinting') 
else: 
app .extensions = ['sympyprinting'] 


上 面 这 段 代码 实现 的 功能 是 : 


口 加 载 默认 配置 
口 导入 SymPy 包 
口 定义 符号 


2. 使 用 SymPy 配 置 选 项 启动 IPython， 命令 如 下 。 


ipython --profile=sympy 


3. 使 用 下 图 所 示 命 令 ， 展 开 一 个 代数 表达 式 。 


In [1]: expand((x+y)**7) 
Out[1]: 


也 6 时 这 4 3 3 4 必 三 6 
x +7Xx:y+2lx:y +35X:y +35.Xx:y +21x:y +7. xy +y 


7 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


高 级 索引 和 数组 概念 


本 章 主 要 内 容 : 


口 安装 SciPy 

口 安装 PIL 

口 调整 图 像 大 小 

口 对 比 视图 和 副本 

口 翻转 图 像 

口 高 级 索引 

口 位 置 列表 型 索引 

口 布尔 型 索引 

口 数 独 游戏 中 的 跨度 技巧 
口 用 广播 机 制 扩展 数组 


2.1 引言 


NumPy 以 高 效率 的 数组 著称 。 这 个 美誉 要 部 分 归 因 于 索引 的 易 用 性 。 我 们 将 以 图 像 处 理 为 例 
展示 高 级 的 索引 技巧 。 在 深入 研究 索引 之 前 ， 我 们 要 先 安装 必需 的 软件 一 一 SciPy 和 PIL。 


在 本 书 的 官网 http://www.packtpub.com 上 ， 可 以 找到 本 章 中 攻略 的 源 代码 。 
你 也 可 以 访问 http://www.packtpub.com/support 并 进行 注册 ， 相 关 的 文件 会 直接 用 
电子 邮件 发 给 你 。 


本 章 中 的 一 些 实例 涉及 图 像 处 理 。 为 此 ,我 们 需要 用 到 Python 图 像 库 (PIL )。 不 用 着 急 , 本 
章 后 续 部 分 会 适时 给 出 指导 和 建议 ， 帮 助 你 安装 PIL 和 其 他 需要 的 Python 软件 。 
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2.2 安装 SciPy 


SciPy 是 一 个 和 NumPy 密 切 相 关 的 Python 科 学 计算 库 。 实 际 上 ， 很 多 年 前 ，SciPy 和 NumPy 归 
属于 同一 个 项 目 。 本 节 将 介绍 怎样 安装 SciPy。 


2.2.1 准备 工作 
在 第 1 章 的 1.2 一 节 ， 我 们 介绍 了 怎样 安装 setuptools 和 pip。 如 有 必要 ， 请 再 次 阅读 该 攻略 。 


2.2.2 ”具体 步骤 
下 面 介 绍 安装 SciPy 的 具体 步骤 。 
> 从 源 文件 安装 
如 果 已 经 安装 了 Git， 可 以 使 用 如 下 命令 复制 SciPy 的 版 本 库 : 


git clone https://github.com/scipy/scipy.git 


python setup.py build 
python setup.py install --user 


上 面 这 两 条 命令 把 SciPy 安 装 到 了 你 的 用 户 目录 ， 要 求 Python 的 版 本 不 低 于 2.6。 
构建 安装 文件 之 前 ， 你 还 需要 安装 以 下 依赖 包 : 


口 BLAS 和 LAPACK 库 
口 C 和 Fortran 编 译 器 


作为 NumPy 安 装 文件 的 一 部 分 ， 你 有 可 能 已 经 安装 好 这 些 软件 了 。 
> 在 Linux 环 境 中 安装 SciPy 


大 多 数 Linux 发 行 版 都 有 SciPy 安 装 包 。 我 们 将 针对 几 个 流行 的 Linux 发 行 版 , 介绍 必要 的 安 
步骤 。 


口 在 Red Hat、Fedora 和 CentOS 中 安装 SciPy， 需 要 在 命令 行 界面 中 运行 如 下 命令 : 
Yum install python-scipy 
口 在 Mandriva 中 安装 SciPy， 需 要 运行 如 下 命令 行 指令 : 


urpmi python-scipy 
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sudo emerge scipy 
口 在 Debian 或 Ubuntu 中 安装 时 ， 需 要 键 人 如 下 命令 : 


sudo apt-get install Python-scipy 


> 在 Mac OS X 环 境 中 安装 SciPy [ 


需要 用 到 苹果 开发 工具 Xcode, 因为 其 中 包含 了 BLAS 和 LAPACK 库 。 可 以 在 苹果 应 用 商店 或 


者 Mac 电 脑 附 带 的 DVD 安 装 光盘 中 找到 Xcode， 还 可 以 访问 苹果 开发 者 网 站 的 https://developer. 


apple. com/ technologies/tools/ 页 面 获 取 最 新 版 本 。 要 确保 Xcode 中 所 有 的 可 选 包 都 已 安装 。 


你 可 能 在 安装 NumPy 的 时 候 已 经 安装 好 了 Fortran 编 译 器 。 在 http://r.research.att.com/tools/ 中 可 


以 找到 gfortran 的 二 进 制 安装 文件 。 


> 使 用 easy_install 或 pip 安 装 SciPy 
使 用 如 下 两 条 命令 之 一 完成 安装 。 
sudo pip install scipy 
easy_install scipy 

> 在 Windows 环 境 中 安装 


如 果 你 已 经 安装 了 Python, 推荐 的 安装 方法 是 下 载 和 使 用 二 进 制 的 SciPy 安 装 文件 。 另 一 种 选 
是 安装 Enthought 公 司 的 Python 发 行 版 ， 里 面包 括 了 SciPy 在 内 的 多 种 Python 科学 计算 软件 包 。 


> 检查 安装 情况 
使 用 如 下 代码 ， 检 查 SciPy 的 安装 情况 : 
import scipy 


print scipy. version _ 
print scipy. file _ 


这 将 显示 正确 的 SciPy 版 本 号 。 


2.2.3 攻略 小 结 


大 多 数 包 管 理 器 会 蔡 你 处 理 各 种 依赖 关系 。 但 有 些 时候 ， 你 需要 手动 安装 这 些 依 赖 文 件 。 很 
遗憾 ， 这 些 内 容 超 出 了 本 书 的 讨论 范围 。 如 果 你 磁 到 了 问题 ， 可 以 到 下 面 两 个 地 方 寻求 帮助 : 


bes 9 


口 freenode 的 #scipy IRC 频 道 
口 位 于 http://www.scipy.org/Mailing_Lists 的 SciPy 邮 件 列 表 
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2.3 安装 PIL 
PIL 是 Python 的 图 像 库 。 本 章 后 续 和 图 像 处 理 有 关 的 攻略 都 要 用 到 它 ， 因 此 需要 提前 准备 好 。 


具体 步骤 

让 我 们 看 看 怎样 安装 PIL。 

> 在 Windows 中 安装 PIL 

从 PIL 的 官网 http:/www.pythonware.com/products/pil/ 下 载 Windows 版 本 的 可 执行 安装 文件 , 并 
完成 安装 。 

> 在 Debian 或 Ubuntu 中 安装 


在 Debian 或 Ubuntu 中 ， 使 用 如 下 命令 安装 PIL。 


sudo apt-get install python-imaging 

> 使 用 easy_install 或 pip 安 装 

写作 本 书 的 时 候 ，Red Hat、Fedora 和 CentOS 中 的 包 管理 器 似乎 尚未 直接 支持 PIL 的 安装 。 
此 ， 如 果 你 使 用 的 是 这 些 Linux 发 行 版 中 的 某 一 个 ， 请 参照 下 面 的 步骤 。 


使 用 如 下 两 条 命令 都 可 以 完成 安装 。 


easy_install PIL 
sudo pip install PIL 


2.4 调整 图 像 大 小 


本 攻略 将 把 SciPy 库 中 的 一 个 示例 图 像 Lena， 加 载 到 一 个 数组 中 。 顺 便 说 一 下 ， 本 章 不 是 要 
讨论 图 像 处 理 ， 我 们 只 是 把 图 像 数据 用 作 输 入 。 


Lena Soderberg 是 1972 年 出 现在 《花花 公子 》 杂 志 上 的 一 个 人 物 。 因 为 历史 
的 原因 ， 图 像 处 理 领域 中 会 经 常用 到 她 的 一 幅 肖像 。 请 勿 多 虑 ， 在 工作 中 使 用 这 


个 肖像 是 绝对 安全 的 。 


我 们 将 用 repeat 隐 数 调整 该 图 像 的 大 小 。 该 函数 用 来 对 一 个 数组 进行 repeat 操 作 ， 其 实际 效 
果 就 是 按 一 定 比 例 调 整 图 像 大 小 。 
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2.4.1 准备 工作 
使 用 本 攻略 的 前 提 条 件 是 SciPy、Matplotlib 和 PIL 都 已 安装 好 了 。 请 参见 本 章 和 上 一 章 中 的 相 
关 攻 略 。 ca 
2.4.2 ”具体 步骤 
1. 加 载 图 像 Lena 到 数组 中 。 
SciPy 中 有 一 个 lena 函 数 ， 可 以 用 该 函数 把 图 像 Lena 加 载 到 NumPy 数 组 中 。 


lena = scipy.misc.lenal) 


SciPy 的 0.10 及 之 后 的 版 本 重 构 了 部 分 代码 ,如 果 你 用 的 是 重 构 之 前 的 旧版 本 ,正确 的 代码 是 : 


lena = scipy.lenal() 
2. 检查 数组 的 形状 。 
用 numpytesting 包 中 的 assert_equal 也 数 检查 数组 Lena 的 形状 ,这 是 一 个 可 选 的 完整 性 检查 。 


numpy.testing.assert_equal ( (LENA_X, LENA _Y), lena.shape) 

3. 调整 数组 Lena 的 大 小 。 

用 repeat 函 数 调整 数组 Lena 的 大 小 。 需 要 分 别 在 x 和 y 方 向 给 出 一 个 调整 系数 : 

resized = lena.repeat (ytfactor，axis=0) .repeat (xfactor, axis=1) 

4. 绘制 数组 对 应 的 图 像 。 

我 们 将 把 原始 图 像 Lena 和 调整 大 小 后 的 图 像 , 分 别 画 到 一 个 网 格 内 的 两 个 子 图 中 。 在 第 一 个 
子 图 中 绘制 数组 Lena。 


matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow (lena) 


Matplotlib 中 的 supplot 函 数 用 来 创建 子 图 。 这 个 函数 以 一 个 3 位 的 整数 作为 参数 ， 最 高 位 的 
数字 代表 行 数 ,第 二 个 数字 代表 列 数 ,最 后 一 个 数字 代表 子 图 的 位 置 索 引 ( 从 1 开始 编号 ), imshow 
函数 用 来 显示 图 像 ，show 函 数 用 来 显示 最 终 的 结 
把 大 小 调整 后 的 数组 绘制 在 第 二 个 子 图 中 ， 并 显示 最 终 的 结果 。 该 子 图 的 位 置 索引 是 2。 


matplotlib.pyplot.subplot (212) 
matplotlib.pyplot.imshow(resized) 
matplotlib.pyplot.show!() 
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最 终 的 结果 如 下 图 所 示 ， 第 一 个 子 图 是 原始 图 像 ， 第 二 个 子 图 是 大 小 调整 后 的 图 像 。 


1000 


MY L bb < 
0 200 400 600 800 100012001400 


本 攻略 的 完整 代码 如 下 。 


import scipy.misc 

import sys 

import matplotlib.pyplot 
import numpy.testing 


# 这 个 脚本 用 来 调整 SciPy 库 中 图像 Dena 的 大 小 。 


if(len(sys.argv) != 3) : 
print "Usage python %s yfactor xfactor" % (sys.argv[0]) 
sys.exit() 


加 载 图 像 Lena 到 一 个 数组 中 
lena = scipy.misc.lenal() 
图 像 Lena 的 规格 
,JENA X = 512 
,JENA_Y = 512 
检查 数组 Lena 的 形状 
numpy.testing.assert_ equal( (LENA XxX, LENA Y), lena.shape) 


获取 调整 系数 
yfactor = float(sys.argv[1]) 
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xfactor = float(sys.argv[2]) 


# 调整 数组 Lena 的 大 小 
resized = lena.repeat (yfactor, axis=0) .repeat (xfactor, axis=1) 


# 检查 大 小 调整 后 的 数组 的 形状 
numpy.testing.assert equal((yfactor * LENA Y, xfactor * LENA Y), 
resized.shape) 


# 绘制 数组 Lena 
matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow (lena) 


# 绘制 大 小 调整 后 的 数组 
matplotlib.pyplot.subplot (212) 
matplotlib.pyplot.imshow(resized) 
matplotlib.pyplot.show!() 


2.4.3 攻略 小 结 


zepeat 国 数 对 数组 进行 repeat 操 作 。 对 于 本 例 的 情况 ， 其 结果 是 改变 了 原始 图 像 的 大 小 。 
Matplotlib 中 的 subplot 函 数 用 来 创建 子 图 ，imshow 函 数 用 来 显示 图 像 ，show 函 数 用 来 显示 最 终 


的 结果 。 


2.4.4 ”参考 阅读 

口 1.5$ 节 “安装 Matplotlib” 
口 2.2 节 “安装 SciPy” 

口 2.3 节 “安装 PIL” 


2.5 创建 视图 和 副本 


有 一 个 重要 的 事情 我 们 必须 要 弄 清 楚 , 即 我 们 是 在 与 一 个 共享 的 数组 视图 打交道 , 还 是 获得 
了 数组 数据 的 一 个 副本 。 例 如 ， 一 个 切片 (slice ) 对 应 一 个 视图 。 这 意味 着 ， 如 果 你 把 一 个 切片 
赋值 给 一 个 变量 , 随后 改变 了 切片 所 在 数组 中 的 内 容 , 那么 这 个 变量 的 值 也 会 改变 。 我 们 将 用 著 
名 的 图 像 Lena 创 建 一 个 数组 ， 复 制 该 数组 ， 创 建 一 个 视图 ， 最 后 再 修改 这 个 视图 。 


2.5.1 准备 工作 
必须 具备 的 条 件 和 上 一 个 攻略 相同 。 
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2.5.2 ”具体 步骤 
创建 数组 Lena 的 一 个 副本 和 视图 。 
1. 创建 数组 Lena 的 一 个 副本 : 


acopy = lena.copy () 


2. 创建 数组 Lena 的 一 个 视 


a 


aview = lena.view!() 


3. 利用 flat 和 迭代 需 ， 把 视图 中 所 有 的 值 清 零 : 


aview.flat = 0 


最 终结 果 是 ， 只 有 一 幅 图 像 显示 的 是 Lena 的 肖像 ， 其 他 几 幅 图 像 都 被 完全 删 剪 掉 了 。 
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本 攻略 展示 了 数组 的 视图 和 副本 的 不 同 之 处 ， 完 整 代 码 如 下 。 


import scipy.misc 
import matplotlib.pyplot 


lena = scipy.misc.lenal() 


acopy = lena.copy() 
aview = lena.view!() 
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# 绘制 数组 Lena 
matplotlib.pyplot.subplot (221) 
matplotlib.pyplot.imshow (lena) 


# 绘制 数组 Lena 的 副本 
matplotlib.pyplot.subplot (222) 
matplotlib.pyplot.imshow(acopy) 


# 绘制 数组 Lena 的 视图 
matplotlib.pyplot.subplot (223) 


matplotlib.pyplot.imshow (aview) 


# 改变 视图 内 容 后 再 绘制 视图 
aview.flat = 0 

matplotlib.pyplot.subplot (224) 
matplotlib.pyplot.imshow (aview) 


matplotlib.pyplot.show!() 


2.5.3 ”攻略 小 结 


如 你 所 见 ， 在 程序 的 后 半 段 ， 通 过 改变 视图 的 内 容 ， 我 们 改变 了 原始 数组 Lena 中 的 内 容 。 
这 导 臻 有 三 幅 图 像 会 显示 为 单一 的 蓝 色 ( 如 果 你 只 能 看 到 黑白 图 像 ， 将 显示 为 黑色 )， 只 有 原始 
数组 的 副本 不 受 视图 内 容 改变 的 影响 。 一 定 要 牢记 ， 视 图 不 是 只 读 的 。 


2.6 ”翻转 图 像 


作为 一 个 演示 实例 ， 我 们 将 对 SciPy 库 中 的 图 像 Lena 进 行 翻转 操作 ( 当然 是 出 于 科学 研究 的 
需要 )。 除 了 对 图 像 进 行 翻转 ， 还 会 绘制 出 它 的 一 部 分 以 及 对 其 应 用 庶 淖 的 效果 。 


2.6.1 具体 步骤 
具体 步 又 如 下 。 
1. 绘制 翻转 后 的 图 像 。 
使 用 如 下 代码 ， 沿 纵 轴 方 向 对 数组 Lena 进 行 翻转 操作 ; 
matplotlib.pyplot.imshow(lena[:,::-1]) 
2. 绘制 图 像 的 一 部 分 。 
把 图 像 的 一 部 分 切割 出 来 并 进行 显示 。 我们 需要 先 查 看 一 下 数组 Lena 的 形状 ( shape ) 属性 。 
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shape 是 一 个 用 来 表示 数组 维 数 的 元 组 。 如 下 代码 实际 上 是 把 图 像 Lena 左 上 角 的 四 分 之 一 选取 并 
显示 出 来 了 。 


matplotlib.pyplot.imshow(lena[:lena.shape[0]/2, 
:lena.shape[1]/2]) 


3. 对 图 像 应 用 遮 党 的 效果 。 


找到 数组 Lena 中 所 有 的 偶数 并 把 它们 置 零 ( 这 只 是 出 于 演示 目的 随意 选 定 的 标准 )， 这样 就 
实现 了 对 图 像 的 遮 尝 效果 。 获 得 数组 的 一 个 副本 ,并 把 其 中 的 偶数 置 零 ， 其 效果 相当 于 在 图 像 上 
画 了 很 多 蓝 色 的 点 ( 如 果 你 看 到 的 是 黑白 图 像 ， 那 只 能 看 到 黑 点 )。 


mask = lena % 2 == 
masked_ lena = lena.copy() 
masked_ lena[lmask] = 0 


所 有 这 些 操作 的 结果 是 生成 一 个 2 x 2 的 图 像 网 格 ， 如 下 图 所 示 。 
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本 攻略 的 完整 代码 如 下 。 


import scipy.misc 
import matplotlib.pyplot 


# 加 载 数 组 Lena 
lena = scipy.misc.lenal() 
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# 绘制 数组 Lena 
matplotlib.pyplo 
matplotlib.pyplo 


.Subplot (221) 
.imshow (lena) 


TT dq 


# 绘制 翻转 后 的 数组 
matplotlib.pyplo 
matplotlib.pyplo 


.Subplot (222) 
.imshow (lena[:,::-1]) 


# 绘制 数组 的 一 部 分 
matplotlib.pyplo 
matplotlib.pyplo 


.Subplot (223) 
.imshow (lena[:lena.shape[0]/2,:lena.shape[1]/2]) 


# 应 用 遮 罩 的 效果 

mask = lena % == 

masked_lena = lena.copy () 

masked_ lenalmask] = 0 
matplotlib.pyplot.subplot (224) 
matplotlib.pyplot.imshow(masked_lena) 


matplotlib.pyplot.show!() 


2.6.2 ”参考 阅读 


口 1.5$ 节 “安装 Matplotlib” 
口 2.2 节 “安装 SciPy” 
口 2.3 节 “安装 PIL” 


2.7 高 级 索引 


本 攻略 将 使 用 高 级 索引 技术 ， 角 线 位 置 上 的 数值 置 零 , 其 效果 就 是 在 图 像 上 夯 
出 两 条 交叉 的 蓝 色 (或 者 是 黑色 ) 对 角 线 。 给 图 像 画 又 没什么 特别 的 意思 ， 只 是 练习 的 需要 。 与 
常规 索引 不 同 的 是 ， 高 级 索引 不 使 用 整数 或 切片 作为 索引 值 。 


2.7.1 具体 步骤 
从 面 第 一 条 对 角 线 开 始 ， 步 骤 如 下 。 
1. 把 第 一 条 对 角 线 位 置 上 的 数值 置 零 。 
为 了 能 把 对 角 线 上 的 值 置 零 ， 需 要 把 数组 的 两 个 索引 值 x 和 y 定 义 为 不 同 的 整数 列表 : 


lenalrange (xmax), range(ymax)] = 0 
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2. 把 另 一 条 对 角 线 位 置 上 的 数值 置 零 。 
为 了 能 把 另 一 条 对 角 线 上 的 值 置 零 ， 需 要 定义 另外 一 对 整数 列表 ， 但 基本 原理 是 一 样 的 : 


lenalrange (xmax-1,-1,-1), range(ymax)] = 0 


在 最 终 得 到 的 图 像 上 ， 可 以 看 到 两 条 交叉 的 对 角 线 ， 如 下 图 所 示 。 
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本 攻略 的 完整 代码 如 下 。 


import scipy.misc 
import matplotlib.pyplot 


# 通过 把 对 角 线 上 的 值 置 零 ， 演 示 了 高 级 索引 的 用 法 . 


# 加 载 数 组 Lena 

lena = scipy.misc.lenal() 
xmax = lena.shapel[l0] 
ymax = lena.shapel[l1] 


# 高 级 索引 

# 把 对 角 线 位 置 上 的 值 置 震 

# x 0-xmax 

# y 0-ymax 

lenal[lrange (xmax), range(ymax)] = 0 


# 把 另 一 条 对 角 线 位 置 上 的 值 置 堆 
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# x xmax-0 
# y 0-ymax 
lenalrange (xmax-1,-1,-1), range(ymax)] = 0 


# 绘制 对 角 线 置 替 后 的 图 像 Lena 

matplotlib.pyplot.imshow (lena) 

matplotlib.pyplot.show!() Ee 
2.7.2 攻略 小 结 


我 们 把 数组 的 索引 值 x 和 y 分 别 定义 为 单独 的 整数 列表 。 这 两 个 整数 列表 被 用 作 数 组 Lena 的 
索引 。 高 级 索引 的 实现 基于 一 个 内 部 的 NumPy 迭 代 器 对 象 ， 具 体 执行 过 程 包括 三 个 步骤 。 


1. 创建 迭代 器 对 象 。 
2. 把 迭代 器 对 象 绑 定 到 数组 。 
3. 通过 和 欠 代 器 访问 数组 元 素 。 


2.8 位 置 列表 型 索引 
让 我 们 使 用 ix_ 函 数 ， 把 图 像 Lena 搅 乱 。ix_ 函 数 能 利用 多 个 序列 生成 一 个 网 状 结构 。 


具体 步骤 
首先 把 数组 的 索引 随机 重 排 ， 步 又 如 下 。 
1. 把 数组 的 索引 随机 重 排 。 
利用 numpy.random 模 块 中 的 shuff1e 函 数 ， 生 成 一 个 随机 排列 的 索引 值 数组 : 


def shuffle indices (size): 
arr = numpy.arange (size) 
numpy .random.shuffle (arr) 


return arr 


2. 用 随机 重 排 后 的 索引 画 出 数组 。 


matplotlib.pyplot.imshow(lena[lnumpy.ix_ (xindices, yindices)]) 


最 终 得 到 的 是 一 幅 被 完全 和 弄 乱 的 Lena 肖 像 ， 如 下 图 所 示 。 
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本 攻略 的 完整 代码 如 下 。 


import scipy.misc 

import matplotlib.pyplot 
import numpy .random 
import numpy.testing 


# 加 载 数 组 Lena 

lena = scipy.misc.lenal() 
xmax = lena.shapel[l0] 
ymax = lena.shapel[1] 


def shuffle indices (size): 

arr = numpy.arange (size) 

numpy .random.shuffle(arr) 

return arr 
xindices = shuffle indices (xmax) 
numpy .testing.assert_ equal (len (xindices), xmax) 
yindices = shuffle_indices (ymax) 
numpy .testing.assert_ equal (len(yindices), ymax) 
# 绘制 数组 Lena 


matplotlib.pyplot.imshow(lena[numpy.ix_ (xindices, yindices)]) 
matplotlib.pyplot.show() 


2.9 布尔 型 索引 


布尔 型 索引 就 是 基于 布尔 数组 的 索引 ， 属 于 高 级 索引 技术 的 范畴 。 
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2.9.1 具体 步骤 
我 们 将 把 这 种 索引 技术 应 用 到 图 像 处 理 过 程 
1. 在 图 像 上 添加 点 状 的 对 角 线 。 


个 步 又 和 2.7 节 中 画 对 角 线 的 过 程 有 点 类 似 ， 只 不 过 这 次 我 们 选取 的 是 图 像 对 角 线 上 能 被 4 
is io 


def get _ indices (size): 
arr = numpy.arange (size) 
return arr % 4 == 0 


然后 应 用 这 个 选择 ， 并 画 出 这 些 点 


lenal = lena.copy() 

xindices = get_ indices (lena.shape[0]) 
yindices = get_indices (lena.shapel[l1]) 
lenal[xindices, yindices] = 0 
matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow(lenal) 


2. 把 指定 范围 内 的 数值 置 零 。 
把 数组 中 大 小 介 于 最 大 值 的 四 分 之 一 和 最 大 值 的 四 分 之 三 之 间 的 数值 置 零 。 


lena2[(lena > lena.max()/4) & 
(lena < 3 * lena.max()/4)] = 0 


最 终 得 到 两 幅 新 的 图 像 ， 如 下 图 所 示 。 


0 100 200 300 400 500 
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本 攻略 的 完整 代码 如 下 。 


Import scipy.misc 
import matplotlib.pyplot 
import numpy 


# 加 载 数 组 Lena 
lena = Scipy.misc.1lenal() 


def get_indices(size): 
arr = numpy.arange (size) 
return arr % 4 == 


# 绘制 图 像 Lena 

lenal = lena.copy() 

xindices = get_indices (lena.shape[0]) 
yindices = get_indices (lena.shape[1]) 
lenal[xindices, yindices] = 0 
matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow(lenal) 


lena2 = lena.copy() 

# 选取 最 大 值 的 1/4 到 最 大 值 的 3/4 之 间 的 数据 

lena2[(lena > lena.max()/4) & (lena < 3 * lena.max()/4)] = 0 
matplotlib.pyplot.subplot (212) 
matplotlib.pyplot.imshow (lena2) 


matplotlib.pyplot.show!() 


2.9.2 ”攻略 小 结 


布尔 型 索引 是 高 级 索引 的 一 种 形式 ， 因 此 它们 的 实现 方式 基本 上 是 相同 的 。 这 意味 着 ,布尔 
型 索引 也 是 利用 一 个 特定 的 迭代 器 对 象 实现 的 。 


2.9.3 ”参考 阅读 


口 2.7 节 “高 级 索引 ” 


2.10” 数 独 游戏 中 的 跨度 技巧 


ee Ca 属性 域 ， 实 现 为 一 个 元 组 。 在 遍历 数组 时 ， 用 
跨度 来 指明 每 一 个 维度 上 的 步 进 值 是 多 少 字 节 。 我 们 将 巧妙 运用 跨度 技巧 ， 把 数 独 迹 题 划分 为 3 
x3 的 iT 
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对 数 独 游戏 规则 的 解释 超出 了 本 书 的 范围 ， 请 访问 http://en.wikipedia.org/ 
~ 一 wikiSudoku 获 取 更 多 相关 信息 。 


2.10.1 具体 步骤 Ee 


1. 定义 数 独 迹 题 数组 。 
首先 定义 数 独 迹 题 数组 ， 其 内 容 就 是 一 个 真实 的 、 已 经 解 开 的 数 独 谜 题 。 


[ 


sudoku = numpy.array 


( 

2, 8, 7, 1, 6, 5, 9, 4, 3], 
9, 5, 4, 7, 3, 2, 1, 6, 8], 
6, 1, 3, 8, 4, 9, 7, 5, 2], 
8, 7, 9, 6, 5, 1, 2, 3, 4], 
4, 2, 1, 3, 9, 8, 6, 7, 5], 
3, 6, 5, 4, 2, 7, 8, 9, 1], 
1, 9, 8, 5, 7, 3, 4, 2, 6], 
5 "4 汪 生 全 二 和 交 ， 
7, 3, 6, 2, 8, 4, 5, 1, 9 
) 


2. 计算 跨度 。 


ndarray 类 的 itemsize 域 指明 数组 中 每 个 元 素 所 占用 的 字 节 数 。 利 用 itemsize 来 计算 
跨度 : 


strides = sudoku.itemsize * 
numpy areay( [L277 3 9), 1]) 


3. 划分 九宫 格 。 
用 numpy.lib.stride tricks 横 块 中 的 as_striaded 国 数 ， 把 谜 题 数组 划分 为 九宫 格 的 形式 : 
squares = numpy.lib.stride tricks.as_strided 


(sudoku, shape=shape, strides=strides) 
print (squares) 


这 样 就 能 把 各 个 宫 格 分 别 打印 出 来 。 
[I[[2 8 7] 


[9 5 4] 
[6 1 3]] 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


念 
心 
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习 乡 


[[9 4 3] 


[1 6 8] 


[7 5 2]]] 


[LIL8 7 9] 


[4 2 1] 


[3 6.5]] 


[[6 5 1] 


[3 9 :8:] 


[4 2 7]] 


[[2 3 4] 


[6 7 5] 


[8- 9: 二 ]]] 


[[[1 9 8] 


] 


] 


] 


4 
7 3 6 


2 8 4 


5 9 


[tS 7 .3] 


[[4 2 6] 


本 攻略 的 完整 代码 如 下 。 


import numpy 


numpy.array([ 


sudoku 


sudoku.itemsize * numpy.array([27, 


strides 


尊重 版 权 


言 
I 
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squares = numpy.lib.stride tricks.as_strided 
(sudoku, shape=shape, strides=strides) 
print (squares) 


2.10.2 ”攻略 小 结 


我 们 应 用 跨度 技巧 ,把 数 独 谜 题 划分 为 3 x 3 的 九宫 格 形式 。 跨 度 告 诉 我 们 ,在 遍历 数 独 数 组 
时 ， 每 一 步 需 要 跳 过 多 少 字 市 。 


2.11 用 广播 机 制 扩展 数组 


你 也 许 还 不 了 解 广播 机 制 这 个 术语 ,就 已 经 把 它 应 用 到 数组 运算 过 程 中 了 。 简 而 言 之 ,NumPy 
总 是 试图 完成 运算 ， 即 便 运 算 对 象 的 形状 并 不 匹配 。 本 攻略 中 , 我 们 将 把 一 个 数组 和 一 个 标量 相 
乘 。 标 量 会 被 “扩展 ”为 和 数组 对 象 相同 的 形状 ， 然 后 与 之 相 乘 。 我 们 将 下 载 一 个 声音 文件 ， 然 
后 为 它 创 建 一 个 音量 减 小 的 新 版 本 。 


具体 步骤 
从 读 取 一 个 WAV 文 件 开 始 ， 步 又 如 下 。 
1. 读 取 一 个 WAV 文 件 。 


我 们 使 用 标准 的 Python 代 码 ， 下 载 一 个 声音 文件 ， 其 内 容 是 Austin Powers 演 唱 的 歌曲 
“Smashing, baby”。SciPy 有 一 个 wavefile 模 块 ， 用 来 加 载 声 音 数 据 或 生成 WAV 文 件 。 如 果 SciPy 已 
经 安装 ， 我 们 就 可 以 使 用 该 模块 。readq 函 数 返 回 一 个 包含 声音 数据 的 数组 和 采样 率 。 本 例 中 我 
们 只 关心 声音 数据 。 


sample rate, data = scipy.io.wavfile.read (WAV_FILE 


2. 画 出 原始 的 WAV 数 据 。 
用 Matplotlib 画 出 原始 的 WAV 数 据 ， 并 把 这 个 子 图 的 标题 命名 为 Original。 


matplotlib.pyplot.subplot(2, 1, 1) 
matplotlib.pyplot.title("Original") 
matplotlib.pyplot.plot (data) 


3. 创建 一 个 新 的 数组 。 


我 们 用 NumPy 创 建 一 个 音量 减 小 的 声音 样本 。 其 实 就 是 把 原始 的 声音 数据 数组 与 一 个 常数 相 
乘 , 生成 一 个 数据 值 减 小 的 新 数组 , 广播 机 制 的 魔力 就 体现 在 这 里 。 最 后 , 为 了 能 生成 WAV 格 式 
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的 文件 ， 我 们 需要 确保 新 数组 的 数据 类 型 与 原始 数组 一 致 。 


newdata = data * 0.2 
newdata = newdata.astype (numpy .uint8) 


4. 生成 新 的 WAV 文 件 。 
把 新 数组 写 入 到 一 个 新 的 WAV 文 件 中 ， 如 下 所 示 。 


scipy.io.wavfile.write("gquiet.wav'", 
sample_rate, newdata) 


5. 画 出 新 的 WAV 数 据 。 


用 Matplotlib 画 出 新 数组 。 


matplotliib.pyplot .subplot(2;, 1;, 2) 
matplotlib.pyplot.title("Quiet") 
matplotlib.pyplot.plot (newdata) 


matplotlib.pyplot.show!() 


最 终结 果 如 下 图 所 示 ， 两 个 子 图 分 别 对 应 原始 的 WAV 文 件 和 数值 按 比 例 缩小 后 的 新 数组 。 


原始 音量 


10000 15000 20000 25000 30000 35000 40000 45000 
调 低 后 的 音量 


0 10000 15000 20000 25000 30000 35000 40000 45000 
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本 攻略 的 完整 代码 如 下 。 


import scipy.io.wavfile 
import matplotlib.pyplot 
import urllib2 

import numpy 


response = urllib2.urlopen('http://www.thesoundarchive.com/ 
austinpowers/smashingbaby .wav') 

print response.info!() 

WAV_FILE = 'smashingbaby .wayv' 

filehandle = open (WAV_FILE, 'w') 
filehandle.write(response.read()) 

filehandle.close() 

sample rate, data = scipy.io.wavfile.read (WAV_FILE) 
print "Data type", data.dtype, "Shape", data.shape 


matplotlib.pyplot.subplot(2, 1, 1) 
matplotlib.pyplot.title("Original") 
matplotlib.pyplot.plot (data) 


newdata = data * 0.2 
newdata = newdata.astype (numpy .uint8) 
print "Data type", newdata.dtype, "Shape", newdata.shape 


scipy.io.wavfile.write("quiet.wav", 
sample_rate, newdata) 


matplotlib.pyplot.subplot(2, 1, 2) 
matplotlib.pyplot.title("Quiet") 
matplotlib.pyplot.plot (newdata) 


matplotlib.pyplot.show!() 
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D sqrt 、1log、arange、astype 和 sum 
D ceil、 modf、 where、 ravel 和 take 
口 sort 和 outer 

DD diff 、sign 和 和 eig 

D histogram 和 polyfit 


口 compress 和 randint 


我 们 将 通过 以 下 攻略 讨论 这 些 函 数 的 用 法 : 


口 斐 波 那 契 数列 求 和 

口 寻找 质 因 数 

口 寻找 回 文 数 

口 确定 稳 态 向 量 

口 探索 蝴 律 分 布 

口 定期 在 低 点 做 交易 

口 模拟 在 随机 时 间 点 做 交易 
口 用 埃 式 筛 筛选 整数 


3.1 引言 


本 章 将 介绍 常用 函数 。 这 些 函 数 我 们 差不多 每 天 都 会 用 到 ， 显 然 ， 具 体 用 到 哪些 函数 因 人 而 
异 。NumPy 提 供 了 数量 众多 的 函数 ,几乎 不 可 能 去 全 部 了 解 , 但 本 章 中 介绍 的 这 些 函 数 是 我 们 必 
须要 熟悉 的 。 你 可 以 从 本 书 官网 http://www.packtpub.com 下 载 本 章 的 源 代码 。 
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3.2” 赤 波 那 契 数列 求 和 


本 攻略 中 , 我 们 将 对 斐 波 那 契 数列 中 取 值 不 大 于 四 百 万 且 为 偶数 的 项 进行 求 和 运算 。 斐 波 那 
契 数 列 是 从 0 开始 的 一 个 整数 序列 ， 除 了 第 一 项 和 第 二 项 是 0 和 1 之 外 ， 其 余 各 项 的 取 值 都 是 该 项 
之 前 的 两 项 求 和 的 结果 。” 


有 关 斐 波 那 契 数列 的 更 多 信息 ， 请 参阅 维基 百科 页 面 http:/en.wikipedia.org/ 
一 wiki/Fibonacci number 的 相关 介绍 。 


本 攻略 使 用 了 一 个 基于 黄金 比例 (golden ratio ) 的 公式 。 黄 金 比 例 就 是 一 个 无 理 数 ， 有 着 类 
似 于 r 的 独特 属性 。 我 们 将 用 到 sart 、1log、azrange、astype 和 sum 函 数 。 


3.2.1 具体 步骤 


首先 需要 计算 黄金 比例 (http:/en.wikipedia.org/wiki/Golden ratio )。 黄 金 比 例 也 被 称 作 黄 金 
分 割 ( golden section 或 golden mean )。 


1. 计算 黄金 比例 。 
我 们 将 使 用 sqrt 函 数 计算 5 的 平方 根 : 


phi = (1 + numpy.sqrt(5))/2 
DETER 


这 样 就 得 到 了 黄金 分 割 数 : 
Phi 1.61803398875 
2. 确定 小 于 四 百 万 的 项 的 最 大 索引 值 。 


接 下 来 ,需要 确定 斐 波 那 契 数列 中 小 于 四 百 万 的 项 的 最 大 索引 值 。 我 们 将 用 维基 百科 页 面 中 
给 出 的 一 个 公式 计算 这 个 索引 值 。 我 们 需要 做 的 是 使 用 1og 函 数 ， 把 对 数 的 底数 转换 一 下 。 不 需 
要 对 计算 的 结果 向 下 取 整 ， 本 攻略 的 下 一 步骤 将 自动 完成 取 整 操作 。 


n = numpy.log(4 * 10 ** 6 * numpy.sqrt{(5) + 0.5) /numpy.1log (phi) 
print n 


n 的 计算 结果 是 : 


33.2629480359 


人 也 可 以 认为 斐 波 那 契 数 列 的 第 一 项 为 1， 把 0 看 作 第 零 项 并 省 略 不 写 。 一 一 译 者 注 
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3. 创建 一 个 从 1 到 n 的 数组 。 
arange 羡 数 是 一 个 非常 基本 的 函数 ， 想 必 大 家 都 熟悉 。 为 了 内 容 的 完整 性 ， 我 们 这 里 还 是 


专 门 提 一 下 O 


n = numpy.arange(1, n) 


4. 计算 斐 波 那 契 数列 。 
有 一 个 方便 的 公式 ,可 以 用 来 计算 斐 波 那 契 数列 。 需 要 把 黄金 比例 和 上 一 步骤 创建 的 数组 作 


为 该 公式 的 输入 参数 。 


为 了 检查 计算 的 结果 ， 把 计算 得 到 的 斐 波 那 契 数列 的 前 9 个 数 打 印 出 来 : 


fib = (phi**n - (-1/PpPhi)x*x*mn) /numpy.sqrt(5) 
print "First 9 Fibonacci Numbers", fib[:9] 


单元 测试 用 来 测试 一 个 小 的 代码 单元 (例如 函数 ) 的 正确 性 。 可 以 用 单元 
> 测试 代替 打印 语句 ， 这 个 作为 练习 留 给 读者 自己 完成 。 


请 参阅 第 8 章 ， 了 解 怎样 进行 单元 测试 。 


顺便 注意 一 下 ， 数 列 的 第 一 项 是 1。 上 述 代码 生成 了 我 们 预期 的 数列 : 

First 9 Fibonacci Numbers [ 1. 1. 2. 3. 5. 8. 13. 21. 34.] 
如 果 你 愿意 ， 可 以 把 这 个 结果 用 在 单元 测试 中 。 

5. 转换 为 整数 。 


这 个 步骤 是 可 选 的 , 但 我 想 最 终结 果 最 好 还 是 转换 为 整数 。 实际 上 , 我 是 想 介 绍 astype 函 数 。 


fib = fib.astype (int) 
print "Integers", fib 


上 述 代码 生成 如 下 结果 ( 简洁 起 见 ， 省 略 了 部 分 内 容 ): 
Integers [ 1 1 2 3 5 8 13 21 34 


。。。 省 略 ... 省 略 ... 
317811 514229 832040 1346269 2178309 3524578] 


6. 选 出 数列 中 取 值 为 偶数 的 项 。 
本 攻略 要 求 我 们 选 出 数列 中 取 值 为 偶数 的 项 。 如 果 已 经 学 习 过 了 上 一 章 中 的 布尔 型 索引 , 这 
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应 该 不 难 实现 。 


eventerms = fib[ftib % 2 == 0] 
print eventerms 


我 们 得 到 的 是 : 


[ 2 8 34 144 610 2584 10946 46368 196418 
832040 3524578] 


本 攻略 的 完整 代码 如 下 。 


import numpy 


斐 波 那 契 数列 中 的 每 一 新 项 都 是 由 该 项 之 前 的 两 项 相 加 得 到 的 。 
如 果 第 一 项 和 第 二 项 分 别 为 1 和 2， 数 列 的 前 十 项 如 下 : 


只 考虑 斐 波 那 契 数列 中 取 值 不 超过 四 百 万 的 项 ， 
对 其 中 取 值 为 偶数 的 项 进行 求 和 运算 。 


1 .计算 黄金 比例 phi 
phi = (1 + numpy.sqgqrt(5))/2 
print "Phi", phi 


#2.， 确定 取 值 小 于 四 百 万 的 项 的 最 大 索引 值 
n = numpy.log(4 * 10 ** 6 * numpy.sqrt(5) + 0.5) /numpy.1og (phi) 
print n 


#3 。 创建 一 个 从 1 到 n 的 数组 
n = numpy.arange(1, n) 
print n 


#4. 计算 非 波 那 契 数列 
fib = (phi**n - (-1/phi)**n)/numpy.sqrt(5) 
print "First 9 Fibonacci Numbers", fib[:9] 


#5。 转换 为 整数 

# 可 选 的 步骤 

fib = fib.astype (int) 
print "Integers", fib 


#6. 选 出 取 值 为 偶数 的 项 
eventerms = fib[fib % 2 == 0] 
print eventerms 


#7 .对 选 出 的 项 求 和 


print eventerms.sum() 
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3.2.2 ”攻略 小 结 


在 本 攻略 中 ,我 们 用 到 了 sqrt、log、arange、astype 和 sum 哺 数 。 它 们 的 功能 描述 如 下 : 


arange 


astype 


3.2.3 ”参考 阅读 


口 2.9 节 “布尔 型 索引 ” 


3.3 寻找 质 因数 


数组 元 素 的 


数组 元 素 的 平方 根 


自然 对 数 


生成 一 个 指定 范围 的 数组 
把 数组 元 素 转换 为 指定 的 数据 类 型 
计算 数组 元 素 之 和 


质 因数 (http:Wen.wikipedia.org/wiki/Prime factor ) 是 可 以 整除 某 个 整数 的 质数 。 通 过 寻找 质 
因数 的 方式 破解 密码 看 似 几乎 不 可 能 ， 但 如 果 使 用 正确 的 算法 一 一 Fermat 因 式 分 解法 ( http://en. 
wikipedia.org/wiki/Fermat%27s_factorization_method ) 和 NumPy， 这 将 变 得 很 容易 。 基 本 思路 是 使 


用 如 下 公式 把 整数 N 分 解 为 c 和 d 两 个 数 : 


N=cd=(at+b)(a—b)=@ 


递归 地 应 用 这 个 因 式 分 解法 ， 直 至 得 到 需要 的 质 因数 。 


3.3.1 具体 步骤 


该 算法 需要 我 们 为 上 述 公 式 中 的 a 尝试 选择 若干 取 值 。 


1. 创建 尝试 值 数 组 。 


创建 一 个 NumPy 数 组 ， 避 免 使 用 循环 语句 ， 这 是 一 个 合理 的 做 法 。 但 要 注意 ,不 能 创建 太 大 


的 、 消 耗 内 存 太 多 的 数组 。 在 我 用 


a = numpy.ceil (numpy.sdrt () 
lim = min(n, LIM) 

a = numpy.arange(a, a + lim) 
b2 =a**2-n 


的 系统 中 ， 使 月 


) 


有 包含 一 百 万 个 元 素 的 数组 看 似 是 没 问题 的 。 


这 里 使 用 ceil1 函 数 对 其 输入 参数 的 数组 元 素 向 上 取 整 。 
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2. 得 到 数组 b 的 小 数 部 分 "。 


我 们 将 检查 数组 b2 中 的 元 素 是 否 是 某 个 整数 的 平方 。 使 用 NumPy 中 的 moaf 函 数 ， 可 以 获得 
数组 Pb 的 小 数 部 分 。 


fractions = numpy.modf (numpy.sqrt(b2))[0] 


3. 查找 小 数 部 分 为 0 的 数组 元 素 。 
使 用 NumPy 中 的 where 函 数 ， 获 得 数组 fractions 中 取 值 为 0 的 元 素 的 索引 值 。 


indices = numpy.where(fractions == 0) 
4. 找到 第 一 个 小 数 部 分 为 0 的 数组 元 素 。 


实际 上 ， 我 们 只 需要 第 一 个 小 数 部 分 为 0 的 数组 元 素 。 首 先 调用 NumPy 的 take 函 数 ， 把 上 一 
步骤 得 到 的 数组 indqices 作 为 参数 , 获得 数组 a 中 小 数 部 分 为 0 的 数组 元 素 。 然 后 需要 使 用 NumPy 
的 *avel 函 数 ， 把 得 到 的 结果 展开 为 一 维 数 组 。 


a = numpy.ravel (numpy.take(a, indices))1[0] 


如 果 需 要 解决 的 问题 是 查找 数字 600851475143 的 最 大 质 因数 ， 完 整 代 码 如 下 。 


import numpy 
#13195 的 质 因数 是 5、7、13 和 29。 


# 数 字 600851475143 的 最 大 质 因数 是 多 少 ? 


N = 600851475143 
LIM = 10 ** 6 


def factor(n): 
#1 。 创建 尝试 值 数组 
a = numpy.ceil (numpy.sqrt (n)) 
lim = min(n, LIM) 
a = numpy.arange(a, a + lim) 
b2=a**2-1n 


#2 .检查 数组 b2 中 的 元 素 是 否 是 某 个 整数 的 平方 
fractions = numpy.modf (numpy.sqrt(b2))[0] 


#3 。 查找 小 数 部 分 为 0 的 数组 元 素 


indices = numpy.where(fractions == 0) 


Q@ b=numpy.sqrt(b2)。 一 一 译 者 注 
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#4. 找到 第 一 个 小 数 部 分 为 0 的 数组 元 素 
a = numpy.ravel (numpy.take(a, indices))[0] 
a = int(a) 
b = 五 ED SOrt(a ** 2 ~ HH) 
1 = nt (DB) 
C=a+t+b 
d=a-b 
于 全 和 于 交尾 -过 .三 三 
return 
Brint Gy 
factor(c) 
factor (qd) 
factor (N) 


这 段 代码 的 执行 结果 如 下 。 
1234169 486847 


1471 839 
6857 71 


3.3.2 ”攻略 小 结 


我 们 采用 了 递归 的 方式 应 用 Fermat 因 式 分 解法 ， 用 到 了 NumPy 中 的 ceil、modf、where、 
ravel 和 take 国 数 。 这 些 函 数 的 功能 描述 如 下 。 


功能 描述 
对 数组 元 素 向 上 取 整 
返回 浮 点 数 的 小 数 部 分 和 整数 部 分 


返回 取 值 符合 条 件 的 数组 元 素 的 索引 值 
返回 一 个 展开 的 一 维 数组 
从 数组 中 取出 指定 的 元 素 


3.4 寻找 回 文 数 


回 文 数 是 指 从 左 往 右 读 和 从 右 往 左 读 都 一 样 的 数字 。 两 个 两 位 数 相 乘 ， 可 获得 的 最 大 回 文 数 
是 9009=91 x 99。 让 我 们 试 着 寻找 由 两 个 三 位 数 相 乘 而 获得 的 最 大 回 文 数 。 


3.4.1 具体 步骤 


我 们 将 使 用 NumPy 中 的 arange 国 数 ， 创 建 一 个 包含 全 部 三 位 数字 〈100~999 ) 的 数组 。 
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1. 创建 一 个 由 三 位 数 构成 的 数组 。 
用 numpytesting 包 中 的 assert_equal 函 数 , 检查 数组 中 的 第 一 个 和 最 后 一 个 元 素 是 否 正确 。 


a = numpy.arange(100, 1000) 
numpy.testing.assert equal(100, a[0]) 
numpy.testing.assert equal(999, al[-1]) 


2. 创建 乘积 数组 。 
我 们 将 创建 一 个 数组 ,用 来 存放 所 有 可 能 的 三 位 数 两 两 相 乘 的 结果 。 可 以 用 outer 函 数 实现 


这 个 外 积 运算 , 再 把 得 到 的 数组 用 ravel1 函 数 展开 ,以 便 进行 查找 。 还 需要 调用 数组 对 象 的 sort 
方法 ， 确 保 数组 元 素 已 正确 排序 。 之 后 ， 我 们 可 以 做 一 些 正确 性 检查 。 


numbers = numpy.outer(a, a) 

numbers = numpy.ravel (numbers) 

numbers .sort() 

numpy.testing.assert equal(810000, len (numbers)) 
numpy.testing.assert_ equal(10000, numbers[0]) 
numpy.testing.assert equal(998001, numbers[-1]) 


完整 代码 如 下 。 


import numpy 
import numpy.testing 


# 回 文 数 从 左 往 右 读 和 从 右 往 左 读者 一 样 。 
# 两 个 两 位 数 相 乘 可 获得 的 最 大 回 文 数 是 9009 = 91 x 99。 


# 寻 找 由 两 个 三 位 数 相 乘 而 获得 的 最 大 回 文 数 。 


#1 。 创建 一 个 由 三 位 数 构 成 的 数组 
a = numpy.arange(100, 1000) 
numpy.testing.assert_equal(100, a[0]) 
numpy.testing.assert_ equal (999, a[-1]) 


#2 .创建 乘积 数组 

numbers = numpy.outer(a, a) 

numbers = numpy.ravel (numbers) 

numbers.sort() 

numpy.testing.assert_ equal(810000, len (numbers)) 
numpy.testing.assert _ equal(10000, numbers[0]) 
numpy.testing.assert_ equal(998001, numbers[-1]) 


#3 .查找 最 大 回 文 数 


for i in xrange(-1, -1 * len(numbers), -1): 
s = str(numbers[i]) 
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TE 区 , 三 芋 息 目 泪 二 二 下 下 了 
print s 
break 


这 段 代码 的 执行 结果 是 显示 出 906609 这 个 回 文 数 。 


3.4.2 ”攻略 小 结 


我 们 看 到 了 outer 函 数 的 实际 应 用 ,该 函数 返回 的 是 两 个 数组 的 外 积 ( http://en.wikipedia. 
org/wiki/Outer_product )。sort 消 数 返 回 的 是 某 个 数组 排序 后 的 副本 。 


3.4.3 更 多 工作 


对 结果 进行 进一步 的 查验 是 个 好 主意 。 稍 微 修改 一 下 代码 , 弄 清楚 我 们 得 到 的 回 文 数 是 由 哪 
两 个 三 位 数 相 乘 后 生成 的 。 请 试 着 使 用 NumPy 实 现 这 个 步骤 。 


3.5 确定 稳 态 向 量 


马尔 科 夫 链 (Markov chain ) 被 用 来 表示 至 少 有 两 个 状态 的 系统 。 有 关 马 尔 科 夫 链 的 详细 信 
息 ， 请 参阅 http://en.wikipedia.org/wiki/Markov_chain。 此 类 系统 t 时 刻 的 状态 仅 取 决 于 t-1 时 刻 的 状 
态 。 系统 的 当前 状态 在 这 些 状态 之 间 随 机 地 切换 。 如 果 把 一 支 股票 的 股价 变动 情况 定义 为 一 个 马 
尔 科 夫 链 ， 并 定义 持平 RF、 上 涨 U 和 下 跌 D 这 三 个 状态 ， 则 我 们 可 以 根据 当日 收盘 价 确定 其 稳 态 。 

在 未 来 某 个 时 刻 之 后 , 或 者 从 理论 上 讲 经 过 无 限 长 时 间 之 后 , 马尔 科 夫 链 系统 的 状态 将 不 再 
改变 。 这 个 状态 被 称 为 稳 态 ( http://en.wikipedia.org/wiki/Steady_state )。 随 机 矩阵 ( http://en.wikipedia. 
org/wiki/Stochastic_matrix ) 包含 了 状态 之 间 转 移 的 概率 。 把 随机 矩阵 A 应 用 于 稳 态 ， 状 态 将 保持 
不 变 ， 用 数学 符号 表示 如 下 : 

了 


也 可 以 把 稳 态 看 作 特 征 值 为 1 的 特征 向 量 (http:/en.wikipedia.org/wiki/Eigenvalues_and_ 
eigenvectors )。 


3.5.1 具体 步骤 
现在 我 们 需要 先 获 取 数据 。 
1. 获取 一 年 的 数据 。 
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获取 数据 的 一 种 办 法 是 使 用 Matplotlib ( 如 有 必要 ,请 参阅 1.5 节 )。 我 们 将 获取 从 现在 算 起 一 
年 内 的 数据 ， 相 关 代码 如 下 。 


date.today() 
(today.year - 1, today.month, today.day) 


today 
start 


Guotes = quotes historical yahoo('AAPL', start, today) 

2. 选取 收盘 价 。 

我 们 已 经 从 雅虎 财经 频道 获得 了 需要 的 历史 数据 。 这 些 数 据 被 表示 为 一 个 由 元 组 构成 的 列 
但 我 们 只 关心 元 组 中 包含 的 收盘 价 。 历 史 数 据 列 表 的 例子 如 下 。 


[(734744.0, 675.25, 673.47000000000003, 677.66999999999996, 

672.60000000000002, 7228500.0), .…, (734745.0, 670.63999999999999, 

663.87, 671.54999999999995, 662.85000000000002,10799600.0)] 

元 组 中 的 第 一 个 元 素 代表 日 期 , 后 面 依次 是 开盘 价 、 最 高 价 、 最 低 价 和 收盘 价 ， 最 后 一 个 元 
素 是 成 交 量 。 可 以 用 如 下 方式 选择 收盘 价 。 


济 


close = [gq[4] for q in quotes] 
收盘 价 是 每 个 元 组 中 的 第 五 个 数 。 现 在 我 们 获得 了 一 个 由 大 约 253 个 收盘 价 构成 的 列表 。 
3. 确定 状态 数组 。 


使 用 NumPy 的 ai ft 函数 获得 两 个 相 邻 交易 日 的 收盘 价差 ， 进 而 确定 状态 数组 。 状 态 数组 中 
的 每 个 状态 由 价差 的 符号 决定 。 当 Numpy 的 sign 函 数 的 输入 参数 为 负 值 、 正 值 和 零 时 ， 其 返回 
结果 分 别 为 -1、1 和 0。 


states = numpy.sign (numpy.diff (close)) 


4. 初始 化 随机 和 矩阵 。 


对 于 每 一 次 状态 转换 ， 其 起 始 状 态 和 结束 状态 都 有 三 种 可 能 。 例 如 ， 如 果 起 始 状 态 为 U， 则 
可 能 切换 到 : 
口 状态 U 
口 状态 F 
口 状态 D 


使 用 NumPy 的 zeros 函 数 ， 对 随机 矩阵 进行 初始 化 。 


NDIM = 3 
SM = numpy .zeros( (NDIM, NDIM)) 


5. 选取 每 一 种 符号 对 应 的 起 始 状态 索引 。 
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代码 现在 变 得 有 点 复杂 了 ， 我 们 不 得 不 使 用 循环 语句 。 对 每 一 种 可 能 的 符号 ， 使 用 NumPy 
的 where 函 数 选取 其 对 应 的 起 始 状态 索引 。 这 里 的 k 是 一 个 平滑 常数 ， 后 面 将 讨论 其 作用 。 


signs = [-1, 0, 1] 
k= 1nt(syes argvi[l2]) 


for i in xrange(len(signs)): 
# 从 特定 符号 对 应 的 状态 开始 转换 
start_indices = numpy .where 
(states[:-1] == signs[i])[0] 


6. 平滑 处 理 和 随机 和 矩阵 。 


给 定 起 始 状 态 , 可 以 对 每 种 类 型 转换 发 生 的 次 数 进行 计数 。 把 计数 结果 除 以 该 起 始 状态 对 应 
的 总 的 转换 次 数 ， 就 能 获得 随机 矩阵 中 相应 的 转换 概率 。 顺 便 说 一 下 ， 这 不 是 最 佳 的 做 法 ， 因 为 
可 能 会 造成 过 拟 合 。 


在 现实 生活 中 , 相 邻 的 两 个 交易 日 的 收盘 价 有 可 能 相同 。 但 对 于 易 变 的 股票 市 场 而 言 ， 这 种 
可 能 性 很 小 。 对 于 转换 次 数 为 零 的 情况 ， 一 种 应 对 方法 是 使 用 加 法 平滑 ( http://en.wikipedia.org/ 
wiki/Additive_ smoothing )。 基 本 思路 是 在 转换 次 数 上 加 一 个 常数 ， 从 而 避免 出 现 概率 为 0 的 情况 。 
计算 随机 和 矩阵 中 各 个 元 素 的 代码 如 下 。 


N = len(start_indices) + k * NDIM 


# 跳 过 总 转换 次 数 为 索 的 情况 
TE NM = 0: 
continue 


# 获取 结束 状态 的 状态 值 


end_values = States [start_indices + 1] 


for j in xrange(len(signs)): 


# 特定 类 型 转换 发 生 的 次 数 


Occurrences = len 
(end values[end values == signs[J]]) 
SM[i][j] = (occurrences + k)/float(N) 
print SM 


上 述 代 码 的 功能 是 , 对 每 一 种 可 能 的 转换 类 型 ,基于 转换 发 生 的 次 数 和 加 法 平滑 技术 , 计算 
其 转换 概率 。 


使 用 AAPL (苹果 公司 ) 的 数据 和 平滑 常数 k=1， 得 到 如 下 随机 矩阵。 


[[ 0.50925926 0.00925926 0.48148148] 
[ 0.33333333 0.33333333 0.33333333] 
[ 0.35135135 0.00675676 0.64189189]] 
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7. 特征 值 和 特征 向 量 。 
为 了 能 得 到 特征 值 和 特征 向 量 ,， 我 们 需要 使 用 NumPy 的 linalg 模 块 和 eig 函 数 。 


eig_out = numpy.linalg.eig!(SM) 
print eig_out 


eig 消 数 返 回 的 是 一 个 特征 值 数组 和 一 个 特征 癌 量 数组 。 


(array([ 1. r 0.15817566， 0.32630882]), 
array([[ 0.57735027, 0.74473695, 0.00297158], 
[ 0.57735027, -0.39841481, -0.99983179], 
[ 0.57735027, -0.53538072, 0.01809841]])) 


8. 选择 特征 值 1 对 应 的 特征 向 量 。 


现在 我 们 只 对 特征 值 1 对 应 的 特征 向 量 感 兴 趣 。 实 际 上 , 特征 值 可 能 不 会 精确 地 等 于 1， 因 此 
应 该 设立 一 个 误差 边界 。 可 以 寻找 取 值 介 于 0.9 和 1.1 之 间 的 特征 值 对 应 的 特征 向 量 的 索引 ， 代 码 
如 下 。 


idx_vec = numpy .where 
(numpy.abs (eig out[0] - 1) < 0.1) 
print "Index eigenvalue 1", idx vec 


X = eig out[1][:,idx vec].flatten() 


本 攻略 的 完整 代码 如 下 。 


from matplotlib.finance import quotes historical yahoo 
from datetime import date 

import numpy 

import sys 


if (len(sys.argv) != 3): 
print "Usage python %s SYMBOL k" % (sys.argv[0]) 
print "For instance python %s AAPL 1" % (sys.argv[0]) 
sys.exit() 


today 
start 


date.today () 
(today.year - 1, today.month, today.day) 


Guotes = quotes historical yahoo(sys.argv[l1], start, today) 
close = [gq[4] for q in quotes] 


states = numpy.sign (numpy.diff (close)) 


NDIM = 3 
SM = numpy.zZeros( (NDIM, NDIM)) 


signs = [-1, 0, 1] 
k = int(sys.argv[2]) 


for i in xrange(len(signs)): 
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# 从 特定 符号 对 应 的 状态 开始 转换 


start_indices = numpy.where(states[:-1] == 


N = len(start_ indices) + k * NDIM 


# 跳 过 总 转换 次 数 为 替 的 情况 
if N == 0 
continue 


# 获取 结束 状态 的 状态 值 


endq_values = states[start_indices + 1] 


for j in xrange(len(signs)): 


# 特定 类 型 转换 发 生 的 次 数 


occurrences = len(end values [endq_ values == signs[j]]) 


SM[i][j] = (occurrences + k)/float(N) 


print SM 
eig_out = numpy.linalg.eig(SM) 
print eig_out 


signs[i])[0] 


idx vec = numpy.where(numpy.abs (eig out[0] - 1) < 0.1) 
print "Index eigenvalue 1", idx vec 


X = eig out[1][:,idx vec].flatten() 


print "Steady state vector", x 
print "Check", numpy.dot (SM, x) 


这 段 代 码 的 输出 结果 如 下 所 示 。 


[[ 0.4952381 0.00952381 0.4952381 ] 
[ 0.33333333 0.33333333 0.33333333] 
[ 0.34210526 0.00657895 0.65131579]] 

0.32660547] )，, 


(array([ 1. 0.15328174, 
array([[ 0.57735027, 0.7424435 
[ 0.57735027, -0.44112882, 
[ 0.57735027, -0.50416566, 
Index eigenvalue 1 (array([0]).,) 
Steady state vector [ 0.57735027 


3.5.2 ”攻略 小 结 


我 们 没有 对 得 到 的 特征 向 量 进行 归 一 化 处 理 。 因 为 我 们 在 处 理 概 率 问题 , 所 以 特 和 


了 


0.00144451], 
-0.99982343], 


0.01873551]])) 


0.57735027 
Check [ 0.57735027 0.57735027 0.57735027] 


0.57735027] 


F 向 量 中 的 


各 个 元 素 取 值 之 和 应 该 为 1。 本 例 介 绍 了 diff、sign 和 eig 函数 ， 它 们 的 功能 描述 如 下 。 


功能 描述 


计算 离散 差分 ， 默 认 计算 一 阶 差分 


日 元 素 的 符号 


的 特征 值 和 特 和 
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3.5.3 ”参考 阅读 


口 1.5 节 “安装 Matplotlib” 


3.6 ”发 现 贿 律 分 布 


为 了 能 完成 本 攻略 , 我 们 现在 要 假设 自己 在 运作 一 只 对 冲 基金 。 让 我 们 沉浸 到 这 个 假设 场景 
中 ， 你 现在 是 资本 市 场 中 的 一 名 精英 了 。 


短 律 分 布 存在 于 众多 领域 之 中 ,更 多 相关 信息 参见 http://en.wikipedia.org/wiki/jPower_law。 帕 
累 托 法 则 (Pareto principle ) 就 是 容 律 分 布 的 一 个 实例 ， 它 描述 了 财富 分 布 的 不 均匀 性 。 该 法 则 
告诉 我 们 , 如 果 按 照 拥 有 财富 的 多 少 把 人 们 划分 成 组 , 每 组 人 数 的 差异 是 巨大 的 。 简单 地 说 就 是 ， 
富 人 不 会 太 多 ， 亿 万 富豪 更 少 。 同 样 ， 社 会 精英 也 是 少数 人 。 

使 用 股票 的 收盘 价 计算 收益 率 ( log returns ), 假设 其 符合 符 律 分 布 。 这 当然 是 一 个 大 的 假设 ， 
但 宕 律 分 布 似乎 在 众多 领域 中 广泛 存在 。 

考虑 到 每 笔 交易 涉及 的 交易 成 本 , 我 们 并 不 想 频 繁 进行 交易 。 假设 我 们 倾向 于 每 个 月 进行 一 
次 买卖 操作 ,交易 时 间 选 择 在 股价 出 现 明显 修正 的 时 候 ， 也 就 是 说 在 股价 大 跌 时 。 现 在 的 问题 就 
是 ， 如 果 我 们 想 每 隔 20 天 左右 进行 一 笔 交 易 ， 怎 样 确定 一 个 适当 的 交易 信和 号。 


3.6.1 具体 步骤 


首先 需要 从 雅虎 财经 频道 获取 过 去 一 年 的 盘 后 数据 , 然后 从 中 提取 出 收盘 价 数据 。 相 关 的 步 
又 已 在 上 一 篇 攻略 中 介绍 了 。 


1. 提取 正 的 收益 率 数 据 。 
现在 要 根据 收盘 价 计算 收益 率 ， 有 关 收 益 率 的 更 多 信息 请 参见 http://en.wikipedia.org/wiki/ 


Rate of return。 
首先 需要 计算 收盘 价 的 对 数 ， 然 后 使 用 NumPy 的 diff 函数 ， 对 其 结果 进行 一 阶 差分 运算 。 


之 后 从 收益 率 数 据 中 , 选 出 其 中 的 正 值 。 为 什么 要 把 正 值 选 出 来 ”这 个 选择 其 实 无 关 紧 要 ,关键 
是 我 想 研 究 这些 正 的 收益 率 数据 。 


logreturns = numpy.diff (numpy.log(close)) 
pos = logreturns[logreturns > 0] 


2. 获得 收益 率 的 出 现 频率 。 
我 们 需要 使 用 histogram 函 数 , 获得 收益 率 的 出 现 频率 。 该 函数 会 进行 分 组 计数 , 并 返回 一 
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个 包含 各 组 计数 值 的 数组 。 为 了 能 获得 一 个 直观 的 线性 关系 ， 我 们 需要 对 这 些 频率 值 取 对 数 。 


counts, rets = numpy.histogram!(pos) 

rets = rets[:-1] + (rets[1] - rets[0])/2 
freqs = 1.0/(counts + 0.01) 

freqs = numpy.1og(freqs) 


3. 利用 频率 值 和 收益 率 数据 拟 合 直线 。 
使 用 plovfi t 孙 数 拟 合 直线 o 


p = numpy.polyfit (rets,freqs, 1) 

4. 图 示 结 果 。 

最 后 ， 使 用 Matplotlib 绘 制 出 结果 数据 和 拟 合 后 的 直线 。 
matplotlib.pyplot.plot (rets, freqs, 'o') 


matplotlib.pyplot.plot(rets, p[0] * rets + p[1]) 
matplotlib.pyplot.show!() 


我 们 得 到 了 一 幅 漂 亮 的 由 拟 合 直 线 、 收 益 率 和 频率 值 构 成 的 图 形 。 


本 攻略 的 完整 代码 如 下 。 


from matplotlib.finance import quotes historical yahoo 


from datetime import date 
import numpy 

import sys 

import matplotlib.pyplot 


#1 . 获取 收盘 价 数 据 
today = date.today() 
start = (today.year - 1, today.month, today.day) 


quotes = quotes historical yahoo(sys.argv[1], start, 
close = numpy.array ([gq[4] for gq in quotes]) 


#2 .提取 正 的 收益 率 数 据 
logreturns = numpy.dqiff(numpy.1Llog(close)) 
pos = logreturns[logreturns > 0] 


#3 . 获得 收益 漳 的 出 现 频 率 

counts, rets = numpy.histogram(pos) 

rets = rets[:-1] + (rets[1] - rets[0])/2 
freqs = 1.0/(counts + 0.01) 


QD 语句 freqs = 1.0/(counts+0.01) 中 ,加 0.01 目 的 是 为 了 避免 可 能 的 除 零 错误 ， 


为 0 的 计数 值 。 一 一 译 者 注 
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today) 


为 countsH 


可 能 会 存在 取 值 
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freqs = numpy.1log(fregs) 


#4. 利用 频率 值 和 收益 率 数 据 拟 合 直线 
p = numpy.polyfit (rets,fregqs, 1) 


#5.。 图 示 结 果 

matplotlib.pyplot.plot (rets, freqs, 'o') 
matplotlib.pyplot.plot(rets, p[0] * rets + p[1]) 
matplotlib.pyplot.show!() 


0.5 


0.0 上 


一 0.5 上 上 


一 1.0 上 


一 1.5 上 


-2.0F 


一 2.5 上 


4800 0.01 0.02 0.03 0.04 0.05 


3.6.2 ”攻略 小 结 

histgram 函 数 利用 输入 的 数据 集 计 算 直 方 图 ， 其 返回 值 为 直方 图 数据 和 各 组 的 界限 值 。 
polyf 让 函数 把 输入 数据 拟 合 为 指定 阶 数 的 多 项 式 曲线 ,本 例 中 我 们 选择 的 是 线性 拟 合 。 我 们 ”发 
现 ” 了 一 个 宕 律 分 布 一 一 宣布 此 类 结论 需要 慎重 , 但 直线 拟 合 的 结果 让 人 觉得 很 有 希望 。 


3.6.3 参考 阅读 


口 1.5$ 节 “安装 Matplotlib” 


3.7 ”定期 在 低 点 做 交易 
股票 价格 会 经 历 周期 性 的 下 跌 和 上 涨 。 我 们 将 观察 股价 收益 率 的 概率 分 布 。 
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首先 需要 下 载 某 只 股票 ( 例如 AAPL ) 的 历史 数据 ， 然 后 计算 其 收盘 价 的 日 收益 率 ( http:// 
en.wikipedia.org/wiki/Rate_of return )。 因 为 在 之 前 的 攻略 中 已 详细 介绍 ， 所 以 这 里 省 略 了 相关 的 
步骤 Ro 


3.7.1 准备 工作 
如 有 必要 ， 请 先 安装 Matplotlib 和 SciPy。 对 应 的 攻略 请 见 后 面 的 “参考 阅读 ”小 节 


3.7.2 ”具体 步骤 
有 趣 的 部 分 来 了 ! 
1. 计算 突破 和 回调 位 置 。 


假设 我 们 想 每 年 交易 五 次 ， 即 大 约 每 50 天 交易 一 次 。 一 种 策略 是 在 股价 回调 的 时 候 〈 下跌 一 
定 的 百分比 时 ) 买 人 ,在 股价 突破 的 时 候 〈 上 涨 一 定 的 百分比 时 ) 卖 出 。 


根据 我 们 选 定 的 交易 频率 设置 适当 的 百 分 位 数 ， 换 算出 与 之 匹配 的 收益 率 。 使 用 SciPy 中 的 
scoreatpbpercentile 国 数 ， 具 体 实现 如 下 。 


freq = 1/float(sys.argv[2]) 

breakout = scipy.stats.scoreatpercentile 
(logreturns, 100 * (1 - freq) ) 

pullback = scipy.stats.scoreatpercentile 
(logreturns, 100 * freq) 


2. 生成 严 入 点 和 卖 出 点 。 


使 用 NumPy 的 compress 函 数 , 利用 收盘 价 数据 生成 买点 和 卖 出 点 。" 该 函数 依据 给 定 条 件 
确定 索引 位 置 并 返回 这 些 索 引 对 应 的 数组 元 素 。 


buys = numpy.compress 
(logreturns < pullback, close) 

sells = numpy.compress 
(logreturns > breakout, close) 

print buys 

print sells 

print len(buys), len(sells) 

print sells.sum() - buys.sum() 


Qz 也 许 是 出 于 简化 代码 的 考虑 ， 这 段 代 码 不 能 保证 卖 出 点 一 定 会 晚 于 买 人 点 。 一 一 译 者 注 
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如 果 选 择 AAPL ( 苹果 公司 )， 交 易 周期 设 定 为 50 天 ， 输 出 如 下 。 


[ 340.1 377.35 378. 373.17 415.99] 
[ 357. 370.8 366.48 395.2 419.55] 
55 

24.42 


可 见 ， 如 果 我 们 买卖 AAPL 股 票 五 次 ， 将 获得 24 美 元 的 收益 。 
3. 绘制 收益 率直 方 图 。 
使 用 Matplotlib ， 为 收益 率 数据 绘制 直方 图 。 


matplotlib.pyplot.hist(logreturns) 
matplotlib.pyplot.show!() 


得 到 如 下 的 直方 图 。 


80 
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本 攻略 的 完整 代码 如 下 。 


from matplotlib.finance import dcuotes_historical_yahoo 
from datetime import date 

import numpy 

import sys 

import scipy.stats 

import matplotlib.pyplot 


#1 .获取 收盘 价 数 据 
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today = date.today() 
start = (today.year - 1, today.month, today.day) 


Guotes = quotes historical yahoo(sys.argv[1], start, today) 
close = numpy.array ([gq[4] for gq in quotes]) 


#2. 获取 收益 率 数 据 


logreturns = numpy.diff (numpy.1log(close)) 


#3 . 计算 突破 和 回调 位 置 

freq = 1/float(sys.argv[2]) 

breakout = scipy.stats.scoreatpercentile(logreturns, 100 * (1 - freq) ) 
pullback = scipy.stats.scoreatpercentile(logreturns, 100 * freq) 


#4. 生成 买 入 点 和 卖 出 点 

buys = numpy.compress (logreturns < pullback, close) 
sells = numpy.compress (logreturns > breakout, close) 
print buys 

print sells 

print len(buys), lenl(sells) 

print sells.sum() - buys.sum() 


#5 .绘制 收益 率直 方 图 
matplotlib.pyplot.hist(logreturns) 
matplotlib.pyplot.show!() 


#AAPL 50 

#[ 340.1 377535 7” .378., 3735L7, L599] 
#[ 357. 3:7.0::8 366.48 395.2 419.55] 
#5 5 

#24 .42 


3.7.3 ”攻略 小 结 


compress 函 数 返回 一 个 数组 ， 其 中 包含 了 输入 数组 中 满足 指定 条 件 的 元 素 。 输 入 数组 的 内 
容 保持 不 变 。 


3.7.4 参考 阅读 

口 1.5 节 “安装 Matplotlib” 
口 2.2 节 “安装 SciPy” 

口 3.6 节 “发 现 寡 律 分 布 ” 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


3.8 ”模拟 在 随机 时 间 点 做 交易 59 


3.8 ”模拟 在 随机 时 间 点 做 交易 


上 一 篇 攻略 中 , 我 们 尝试 了 一 种 交易 策略 。 但 是 因为 没有 测试 基准 , 我们 很 难 对 这 种 交易 策 
略 的 效果 进行 评价 。 这 种 情况 下 ， 通 常会 假设 我 们 能 “击败 ”随机 过 程 ， 把 在 随机 时 间 点 做 交易 
作为 测试 基准 。 我 们 将 要 模拟 的 是 ,从 一 年 所 有 的 交易 日 中 ， 随 机 抽取 若干 日 进行 交易 。 这 将 展 
示 NumPy 中 随机 数 的 使 用 。 


3.8.1 准备 工作 
如 有 必要 ， 请 先 安装 Matplotlib。 对 应 的 攻略 请 见 后 面 的 “参考 阅读 ”小 节 。 


3.8.2 ”具体 步骤 
首先 ， 我 们 需要 一 个 由 随机 整数 构成 的 数组 。 
1. 生成 随机 索引 。 


使 用 NumPy 的 randint 函 数 ， 生 成 随机 整数 。 从 全 年 交易 日 中 随机 选取 若干 日 时 , 将 要 用 到 
这 个 函数 。 

return numpy.random.randint (0, high, size) 

2. 模拟 交易 过 程 。 


模拟 交易 过 程 ， 需 要 用 到 上 一 步 又 获得 的 随机 索引 。 使 用 NumPy 的 take 函 数 ， 从 收盘 价 数 
组 中 随机 选取 若干 元 素 。 


buys = numpy.take(close, get_indices(lenl(close), nbuys)) 
sells = numpy.take(close, get_ indices (len(close), nbuys)) 
profits[i] = sells.sum() - buys.sum() 


3. 绘制 利润 直方 图 。 
进行 很 多 次 模拟 后 ， 绘 制 利润 直方 图 。 


matplotlib.pyplot.hist (profits) 
matplotlib.pyplot.show!() 


假设 使 用 AAPL 股 票 的 交易 数据 ， 一 年 买卖 五 次 ， 进 行 2000 次 模拟 后 ， 得 到 如 下 的 直方 图 。 
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本 攻略 的 完整 代码 如 下 。 


from matplotlib.finance import quotes historical yahoo 
from datetime import date 

import numpy 

import sys 

import matplotlib.pyplot 


def get_ indices (high, size): 
#2 .生成 随机 索引 


return numpy.random.randint (0, high, size) 


#1 . 获取 收盘 价 
today = date.today() 
start = (today.year - 1, today.month, today.day) 


Guotes = quotes historical yahoo(sys.argv[1], start, today) 
close = numpy.array ([gq[4] for gq in quotes]) 


nbuys = int(sys.argv[2]) 
N = int(sys.argv[3]) 
profits = Dumpy.zeros (N) 


for i in xrange(N) : 
#3 . 模拟 交易 过 程 
buys = numpy.take(close, get_indices(len(close), nbuys)) 
sells = numpy.take(close, get_indices(len(close), nbuys)) 
profits[i] = sells.sum() - buys.sum() 
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print "Mean"，Profits.mean() 
DELNt "etd" DEGfitS tq.() 


#4 . 绘制 利润 直方 图 
matplotlib.pyplot.hist (profits) 
matplotlib.pyplot.show!() 


#python random periodic.py AAPL 5 2000 
#Mean -2.566465 
#Std 133.746039463 


3.8.3 攻略 小 结 
我 们 用 到 了 numpy.random 模 块 中 的 randint 函 数 , numpy.random 模 块 中 还 包含 了 更 多 方便 易 
用 的 随机 数 生 成 器 ， 这 些 函 数 的 功能 描述 如 下 。 
功能 描述 


根据 维度 参数 生成 指定 形状 的 数组 。 数 组 元 素 是 一 个 随机 数 ， 符 合 [0,1] 区 间 上 的 均匀 
分 布 。 如 果 没 有 指定 维度 参数 ， 则 返回 一 个 浮 点 数 


ranan 数组 元 素 是 来 自 一 个 均值 为 0、 方 差 为 1 的 正 态 值 。 维 度 参数 的 作用 同 rand 
randint 给 定 一 个 下 边界 、 一 个 可 选 的 上 边界 和 一 个 可 选 的 输出 形状 ， 返回 一 个 整数 数组 


3.8.4 ”参考 阅读 


口 1.5 节 “安装 Matplotlib” 


3.9 用 埃 氏 筛 簿 选 整数 

埃 拉 托 斯 特 尼 得 法 ( http://en.wikipedia.org/wiki/Sieve_of_ Eratosthenes ) 简称 埃 氏 第 ， 是 一 个 
筛选 质数 的 算法 。 该 算法 用 迭代 的 方式 识别 出 已 经 找到 的 质数 的 倍数 ,能 高 效 地 筛选 小 于 一 千 万 
的 质数 。 让 我 们 试 着 去 寻找 第 10 001 个 质数 。 
具体 步骤 

首先 必须 要 做 的 事情 ， 就 是 创建 一 个 自然 数列 表 。 

1. 创建 一 个 连续 的 整数 列表 。 
使 用 NumPy 中 的 arange 函 数 创建 数组 。 


a = numpy.arange(i, i + LIM, 2) 
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2. 第 选 出 p 的 倍数 。 


不 清楚 埃 拉 托 斯 特 尼 本 人 是 否 希 望 我 们 这 样 实现 算法 ,但 确实 可 以 这 样 做 。 把 数组 中 能 被 p 
整除 的 元 素 移 除 ， 代 码 如 下 。 


a=ala®% p != 0] 
本 攻略 的 完整 代码 如 下 。 
import numpy 


LIM = 10 ** 6 
N =r 10 **% 9 


P = 10001 
primes = [] 
p=2 


# 通 过 列 出 前 6 个 质数 : 2、3、5、7、11 和 13 ， 我 们 看 到 第 6 个 质数 是 13。 
# 第 10 001 个 质数 是 多 少 ? 


def check primes (a, p): 
#2 . 筛选 出 D 的 倍数 
[= 0 
return a 

for i in xrange(3, N, LIM): 
#1 。 创建 一 个 连续 的 整数 列表 


a = numpy.arange(i, i + LIM, 2) 
while len(primes) < P: 
a = check primes (a, p) 
primes .append (p) 


p = a[o0] 


print len(primes), primes[P-1] 
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第 4 章 


NumPy 与 其 他 软件 的 妥 互 


本 章 主 要 内 容 : 


口 使 用 缓冲 区 协议 

口 使 用 数组 接口 

口 与 MATLAB 和 Octave 交 换 数据 
口 安装 RPy2 

口 连接 到 R 

口 安装 JPype 

口 传递 NumPy 数 组 到 JPype 

口 安装 谷歌 应 用 程序 引擎 

口 在 谷歌 云 中 部 署 NumPy 人 代码 
口 在 Python Anywhere 的 Web 控 制 台 中 运行 NumPy 代 码 
口 设置 PiCloud 


4.1 引言 


本 章 的 主题 是 互 操作 性 。 我 们 需要 不 断 地 提醒 自己 , 在 Python 科学 计算 软件 这 个 生态 系统 中 ， 
NumPy 不 是 孤立 的 。NumPy 与 SciPy 和 Matplotlib 协 同 工 作 是 相当 容易 的 ， 与 其 他 Python 软件 包 进 
行 互 操作 的 协议 也 存在 。 在 Python 生态 系统 之 外 , 诸如 Java、R、C 和 Fortran 等 编程 语言 也 非常 流 
行 。 我 们 将 会 讨论 与 这 些 编程 环境 交换 数据 的 细节 。 


此 外 , 我 们 将 讨论 怎样 让 NumPy 代 码 运行 在 云端 。 这 是 一 个 正在 持续 快速 演进 的 技术 。 在 实 
现 技术 方面 有 很 多 选择 ， 我 们 将 介绍 谷歌 应 用 程序 引擎 、PiCloud 和 Python Anywhere。 


选择 介绍 哪 家 公司 的 产品 存在 一 定 的 风险 ， 因 为 有 可 能 被 认为 返 杂 了 主观 
因素 。 请 相信 本 书 作 者 和 上 述 的 所 有 公司 绝对 没有 利益 联系 。 
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4.2 ”使 用 缓冲 区 协议 


用 C 语 言 实现 的 Python 对 象 有 一 个 所 谓 的 “缓冲 区 接口 ?。 无 需 复 制 ， 此 类 Python 对 象 允 
许 其 他 对 象 直 接 访问 它们 的 数据 成 员 。 组 冲 区 协议 使 我 们 能 方便 地 在 NumPy 和 其 他 Python 软 
件 〈 例 如 Python 图 像 库 PIL ) 之 间 交 换 信息 。 我 们 来 看 一 个 直接 把 NumPy 数 组 保存 为 PIL 图 像 
的 例子 。 


4.2.1 准备 工作 
如 有 必要 ， 请 先 安装 PIL 和 SciPy。 对 应 的 攻略 请 见 后 面 的 “参考 阅读 ”小 节 。 


4.2.2 ”具体 步骤 
首先 ， 我 们 需要 一 个 操作 对 象 一 NumPy 数 组 。 
1. 用 图 像 数据 创建 一 个 数组 。 


在 之 前 的 章节 中 , 我 们 已 经 介绍 了 怎样 加 载 范例 图 像 Lena。 我 们 将 创建 一 个 用 0 填充 的 数组 ， 
并 且 把 图 像 数 据 填充 到 alpha 通 道中 。 


lena = scipy.misc.lenal() 
data = numpy.zeros((lena.shape[0], lena.shapel[1], 4), dtype=numpy .int8) 
data[:,:,3] = lena.copy() 


2. 把 数据 保存 为 PIL 图 像 。 
我 们 现在 使 用 PIL API， 把 数据 保存 为 RGBA 格 式 的 图 像 。 


img = Image.frombuffer("RGBA" ，1Lena.shape，dqata) 
img.save('lena frombuffer.png') 


3. 修改 数组 aata 并 保存 图 像 。 
修改 数组 aata， 删 除 图 像 数据 ， 使 图 像 显 示 为 红色 。 用 PIL API 保 存 图 像 。 


datalsyr3] = 255 
datal[l:,:,0] = 222 
img.save('lena modified.png') 


下 图 是 修改 数组 内 容 之 前 保存 的 图 像 。 
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由 于 使 用 了 绥 冲 区 接口 ， 数 组 data 的 改变 会 导致 PIL 图 像 对 象 的 数据 改变 。 因 此 ,我们 会 看 
到 如 下 图 像 。 


本 攻略 的 完整 代码 如 下 。 
import numpy 


import Image 


import scipy.misc 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


66 第 4 章 NumpPy 与 其 他 软件 的 交互 


lena = Scipy.misc.1Llenal() 

data = numpy.zeros ( (Lena.shape[0]，1lena.shape[1]，4)，qtype=numpy.int8) 
data[:,:,3] = lena.copy() 

img = Image.frombuffer ("RGBA", lena.shape, data) 

img.save('lena frombuffer.png') 


dataliyi3) = 255 
data[l:,:,0] = 222 
img.save('lena modified.png') 


4.2.3 ”攻略 小 结 


我 们 从 一 个 缓冲 区 一 一 NumPy 数 组 ， 创 建 了 一 个 PIL 图 像 。 改 变 缓冲 区 内 容 后 ， 我 们 看 到 图 
像 对 象 也 会 相应 发 生 改 变 。 实 现 这 些 并 不 需要 复制 PIL 图 像 对 象 。 我 们 直接 访问 和 修改 NumPy 数 
组 ， 把 一 个 模特 的 肖像 变 成 了 一 个 红色 图 像 。 


4.2.4 ”参考 阅读 


口 2.3 节 “安装 PIL” 
口 2.2 节 “安装 SciPy” 


4.3 使 用 数组 接口 


数组 接口 是 另 一 种 与 其 他 Python 应 用 程序 通信 的 机 制 。 顾 名 思 义 ， 该 协议 机 制 只 适用 于 类 数 
组 (array-like ) 对 象 。 接 下 来 还 是 使 用 PI 举例 ， 但 不 涉及 保存 文件 的 操作 。 


4.3.1 准备 工作 


我 们 将 复 用 上 一 攻略 的 部 分 代码 ,因此 相关 的 准备 工作 也 是 类 似 的 。 这 里 省 略 了 对 上 一 攻略 
中 的 第 一 个 步 又 的 介绍 ， 假 定 你 已 知道 怎样 用 图 像 数 据 创 建 数组 。 


4.3.2 ”具体 步骤 
让 我 们 开始 探索 数组 接口 的 用 
1. PIL 图 像 的 数组 接口 属性 。 


PIL 图 像 对 象 有 一 个 array_interface 属性 。 属 性 值 是 一 个 字典 对 象 。 让 我 们 看 一 下 
它 的 内 容 。 


去 。 


SA 
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array_interface = limg. array_interface 
print "Keys", array_interface.keys() 

print "Shape", array_interface['shape'] 
print "Typestr", array_interfacel['typestr'] 


这 上段 代码 会 打印 如 下 信息 。 


Keys ['shape', 'data', 'typestr'] 
Shape (512, 512, 4) 
Typestr |ul 


2. NumPy 数 组 接口 属性 。 


NumPy 的 ndarray 模 块 也 有 一 个 array_interface 属性。 可 以 使 用 asarray 函 数 把 PIL 
图 像 转换 为 NumPy 数 组 。 


numpy_array = numpy.asarray (img) EE 
print "Shape", numpy_array.shape 
print "Data type", numpy_array.dtype 


该 数组 的 形状 和 数据 类 型 是 : 


Shape (512, 512, 4) Data type uint8 
如 你 所 见 ， 数 组 的 形状 没有 改变 。 本 攻略 的 完整 代码 如 下 。 


import numpy 
import Image 
import scipy.misc 


lena = scipy.misc.lenal) 

data = numpy.zeros((lena.shape[0], lena.shape[1], 4), dtype=numpy .int8) 
datal[l:,:,3] = lena.copy() 

img = Image.frombuffer("RGBA", lena.shape, data) 

array_interface = img._ array_interface 

print "Keys", array_interface.keys() 

print "Shape", array_interface['shape'] 

print "Typestr", array_interfacel['typestr'] 


numpy_array = numpy.asarray (img) 


print "Shape", numpy_array.shape 
print "Data type", numpy_array.dtype 


4.3.3 攻略 小 结 


数组 接口 (协议 ) 使 我 们 能 够 在 Python 的 类 数组 对 象 之 间 共 享 数据 。NumPy 和 了 PIL 都 提供 了 
数组 接口 。 
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4.3.4 ”参考 阅读 
口 4.2 节 “使 用 缓冲 区 协议 ” 


4.4 与 MATLAB 和 Octave 交换 数据 


MATLAB 和 它 的 开源 替代 品 Octave 都 是 流行 的 数学 软件 。scipy.io 包 中 有 一 个 savemat 水 数 。 
用 NumPy 数 组 构造 一 个 字典 对 象 。savemat 函 数 可 以 把 该 字典 对 象 转换 并 存储 到 一 个 .mat 文 件 中 。 


4.4.1 准备 工作 


怎样 安装 MATLAB 和 Octave 不 在 本 书 的 讨论 范围 之 内 。Octave 的 官网 上 有 安装 指南 
( http://www.gnu.org/software/octave/download.html )。 如 果 需 要 了 解 怎样 安装 SciPy, 请 先 看 后 面 的 
“参考 阅读 ”小 节 。 


4.4.2 ”具体 步骤 
安装 好 MATLAB 或 Octave 后 ， 需 要 按照 如 下 步骤 保存 NumPy 数 组 。 
1. 调用 savemat 国 数 。 


创建 一 个 NumPy 数 组 。 调 用 savemat 函 数 ， 把 这 个 数组 保存 到 一 个 .mat 文 件 中 。savemat 抽 
数 需 要 两 个 参数 : 文件 名 ， 包 含 变量 名 和 变量 取 值 的 字典 对 象 。 


a = numpy.arange(7) 
scipy.io.savemat ("a.mat", {"array": a}) 


2. 加 载 .mat 文 件 。 
切换 到 上 一 步 又 生成 的 .mat 文 件 所 在 的 目录 。 在 Octave 中 加 载 该 文件 ， 并 查验 数组 数据 。 


octave-3.4.0:2> load a.mat 
octave-3.4.0:3> array 
array = 


mum 呈 wb 口 
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本 攻略 的 完整 代码 如 下 。 


import numpy 
import scipy.io 


a = numpy.arange(7) 
scipy.io.savemat ("a.mat", {"array": a}) 


4.4.3 ”参考 阅读 


口 2.2 节 “安装 SciPy” 


4.5 安装 RPy2 


R 是 一 种 流行 的 用 来 做 统计 和 数据 分 析 的 脚本 语言 。RPy2 是 R 和 Python 的 接口 。 本 攻略 将 介 
绍 RPy2 的 安装 方法 。 


具体 步骤 
安装 RPy2 的 方法 如 下 ， 选 择 其 一 即 可 。 
使 用 pip 或 easy_install 安 装 
在 PYPI 上 有 RPy2 包 ， 因 此 可 以 使 用 如 下 两 条 命令 之 一 完成 安装 。 
easy_install rpy2 
或 者 
sudo pip install rpy2 
> 从 源 文件 安装 
用 tar.gz 格 式 的 源 文件 安装 RPy2。 
tar -xzf <rpy2_package>.tar.gz 


cd <rpy2_ package> 
python setup.py build install 


4.6 连接 到 R 


RPy2 只 能 用 来 从 Python 调用 R， 不 支持 反 向 的 调用 。 我 们 将 导入 R 中 的 一 些 范例 数据 集 ， 并 
把 其 中 的 一 组 数据 用 图 形 化 的 方式 表示 。 
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4.6.1 准备 工作 
如 有 必要 ， 请 先 安装 RPy2。 参 见 上 一 篇 攻略 。 


4.6.2 ”具体 步骤 
首先 要 加 载 R 中 的 一 个 范例 数据 集 。 
1. 把 一 个 数据 集 加 载 到 数组 中 。 


使 用 RPy2 的 ijmportr 函 数 加 载 数 据 集 。 该 函数 用 来 导入 R 包 。 本 例 中 ,我们 将 导入 R 中 的 
datasets 包 。 用 mtcars 数 据 集 创建 一 个 NumPy 数 组 。 


datasets = importr('datasets') 
mtcars = numpy.array (datasets.mtcars) 


2. 绘制 数据 集 。 
使 用 Matplotlib ， 绘 制 出 mtcars 数 据 集 。 


matplotlib.pyplot.plot (mtcars) 
matplotlib.pyplot.show!() 


该 数据 集 被 表示 为 一 个 二 维 数组 。 绘 制 的 结果 如 下 图 所 示 。 
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本 攻略 的 完整 代码 如 下 。 
from rpy2.robjects.packages import importr 
import numpy 


import matplotlib.pyplot 


datasets = importr('datasets') 
mtcars = numpy.array (datasets.mtcars) 


matplotlib.pyplot.plot (mtcars) 
matplotlib.pyplot.show!() 


4.6.3 ”参考 阅读 


口 1.5 节 “安装 Matplotlib” 


4.7 安装 JPype 


Jython 是 实现 Python 和 Java 之 间 互 操作 性 的 默认 解决 方案 。 但 Jython 运 行 在 Java 虚 拟 机 环境 
中 ， 因 此 不 能 访问 主要 用 C 语 言 编写 的 NumPy 模 块 。JPype 是 试图 解决 这 个 互 操作 问题 的 一 个 开 
源 项 目 。JPype 在 本 机 级 别提 供 了 一 个 Python 和 Java 虚 拟 机 的 接口 。 让 我 们 开始 安装 JPype。 


具体 步骤 
按照 如 下 步骤 安装 卫 ype。 
1 下 载 JPype o 


从 http://sourceforge.net/projects/jpype/files/ 下 载 JPype 的 源 文件 。 
2. 构建 JPype。 
解压 缩 JPype 的 源 文 件 ， 并 运行 如 下 命令 。 


python setup.py install 


4.8 传递 NumPy 数组 到 JPype 


在 本 攻略 中 ,我 们 将 启动 一 个 Java 虚 拟 机 (JVM )， 并 把 一 个 NumPy 数 组 发 送 到 JVM。 我们 
将 使 用 标准 的 Java 调 用 语法 把 接收 到 的 数组 打印 出 来 。 当 然 ， 你 需要 提前 安装 好 Java。 
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4.8.1 具体 步骤 
首先 ， 我 们 需要 在 JPype 中 启动 JVM。 
1. 启动 JVM。 
JPype 可 以 方便 地 找到 默认 的 JVM 路 径 。 
jpype.startJVM(jpype.getDefaultJVMPath () ) 
2. 打印 hello world。 


出 于 对 传统 的 尊重 ， 先 打印 hello wor1laq。 
jpype.java.lang.System.out.println("hello world") 
3. 传递 NumPy 数 组 。 


创建 一 个 NumPy 数 组 ， 把 它 转换 为 Python 列表 并 传递 给 JPype。 之 后 就 可 以 轻松 打印 出 各 个 
数组 元 素 。 


Values = numpy.arange(7) 
java_array = jpype.JArray 
(jpype.JDouble, 1) (values.tolist()) 


for item in java array: 
jpype.java.lang.System.out.println (item) 


4. 关闭 JVM。 
所 有 的 事情 都 完成 后 ， 关 闭 JVM。 
jpype.shutdownJVM() 


在 JPype 中 ， 任 何 时 刻 都 只 能 有 一 个 JVM 正 在 运行 。 如 果 忘 记 关闭 JVM， 有 可 能 导致 意 想 不 
到 的 错误 。 程 序 的 输出 如 下 。 


hello world 


AaUuuwWD Po 
站 
O00ooooopo 


JVM activity report 
classes loaded 31 
JVM has been shutdown 
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本 攻略 的 完整 代码 如 下 。 


import jpype 
import numpy 


#1. 启动 JVM 
jpype.startJVM(jpype.getDefaultJVMPath()) 


#2. 打印 hello world 
jpype.java.lang.System.out.println("hello world") 


#3 . 传递 NumPy 数 组 
Values = numpy.arange(7) 
java_array = jpype.JArray (jpype.JDouble, 1) (values.tolist()) 


for item in java array: 
jpype.java.lang.System.out.println (item) 


#4. 关闭 JVM 
jpype.shutdownJVvM() 


4.8.2 ”攻略 小 结 


JPype 人 允许 我 们 启动 和 停止 一 个 Java 虚 拟 机 。JPype 提 供 了 对 标准 Java API 调 用 的 封装 。 本 例 中 ， 
我 们 通过 使 用 IaArray 封 装 ， 可 以 把 Python 列表 传递 到 JVM 并 转换 为 Java 数 组 。JPype 使 用 了 Java 
本 地 接口 (JNI )。JNI 实 现 了 本 地 原生 C 语 言 代码 和 Java 之 间 的 桥接 。 遗 憾 的 是 ， 使 用 JNI 会 导致 
软件 性 能 降低 ， 因 此 使 用 JPype 的 时 候 要 考虑 到 这 一 点 。 


4.8.3 ”参考 阅读 


口 4.7 节 “安装 卫 ype” 


4.9 安 效 谷歌 应 用 程序 引擎 


谷歌 应 用 程序 引擎 ( GAE ) 使 你 能 在 谷歌 云 ( Google cloud ) 中 构建 Web 应 用 程序 。 从 2012 
年 开始 ，GAE 正 式 支持 NumPy。 为 了 能 使 用 GAE ， 你 需要 注册 一 个 谷歌 账户 。 


具体 步骤 
第 一 步 是 下 载 GAE。 


1. 下 载 GAE。 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


74 第 4 章 NumPy 与 其 他 软件 的 交互 


从 https://developers.google.com/appengine/downloads 下 载 适 合 你 的 操作 系统 的 GAE 版 本 。 

从 该 页 面 也 能 同时 下 载 相 关 文档 和 GAE 的 Eclipse 插 件 。 如 果 使 用 Eclipse 做 开发 ,你 绝对 应 该 
安装 这 个 插件 。 

2. 开发 环境 。 


GAE 自 带 一 个 开发 环境 ,用 来 在 本 地 模拟 云端 产品 。 在 写作 本 书 的 时 候 ,GAE 仅 提供 对 Python 
2.5 和 2.7 的 正式 支持 。GAE 会 试图 找到 系统 中 的 Python ， 但 有 的 时 候 ， 例 如 系统 中 安装 了 多 个 版 
本 的 Python， 也 可 能 需要 你 手动 设置 。 可 以 在 GAE 启 动 器 的 Preferences 对 话 框 中 进行 相关 设置 。 


GAE 的 SDK 中 有 两 个 重要 的 脚本 。 


口 dev_appserverpy: 开发 服务 需 
口 appcfg.py: 部 署 到 云端 

在 Windows 和 Mac 系 统 中 ， 可 以 看 到 一 个 名 为 GAE 启 动 器 的 应 用 程序 。 这 个 程序 中 的 Run 和 
Deploy 按 钮 的 功能 与 上 述 的 两 个 脚本 对 应 。 


Aee te eh mae E3 
OM 乡 >» 


Name . Path ” 


myhangouts... /Users/ivanidris/Projects/... 8081 
ivanidris1 /Users/ivanidris/Documen... 8082 
ivanidris2 /Users/ivanidris/Documen... 8083 
ivanidris3 /Users/ivanidris/Documen... 9999 


4.10 ”在 谷歌 云 中 部 署 NumPy 代码 


部 署 GAE 应 用 是 相当 简单 的 。 如 果 用 到 了 NumPy， 则 需要 一 个 额外 的 配置 步骤 , 但 也 就 是 几 
分 钟 即 可 解决 的 事情 。 
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4.10.1 具体 步骤 
让 我 们 创建 一 个 新 的 应 用 。 
1. 创建 一 个 新 的 应 用 。 


使 用 GAE 启 动 器 程序 , 创建 一 个 新 的 应 用 (File | New Application ), 并 把 它 命名 为 nampycloud。 
这 将 生成 一 个 同名 的 文件 夹 ， 其 中 包括 如 下 内 容 。 


口 app.yaml: YAML 应 用 程序 配置 文件 
口 favicon.ico: 图 标 

口 index.yaml: 自动 生成 的 文件 

口 main.py: Web 应 用 程序 的 主 入 口 


2. 把 NumPy 加 到 库 中 。 
需要 让 GAE 知 道 我 们 想 使 用 NumPy。 添 加 如 下 内 容 到 配置 文件 app.yaml 的 libraries 区 段 。 


- name: numpy 
version: "1.6.1" 


该 配置 文件 应 该 包括 如 下 的 内 容 。 


application: numpycloud 
version: 1 

runtime: python27 
api_version: 1 
threadsafe: yes 


handlers: 

- url: /favicon\.ico 
static_ files: favicon.ico 
upload: favicon\.ico 


a 
script: main.app 


libraries: 

- name: webapp2 
version: "2.5.1" 

- name: numpy 
version: "1.6.1" 


. 编写 NumPy 代 码 。 


为 了 演示 NumPy 代 码 的 使 用 , 我 们 修改 一 下 main.py 文 件 。 该 文件 中 有 一 个 MainHandler 类 ， 
其 中 包含 了 一 个 用 来 处 理 get 请 求 的 方法 。 使 用 如 下 代码 蔡 换 该 方法 的 内 容 . 


(LD 
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def get (self): 
self.response.out.write 
('Hello world!<br/>') 
self.response.out.write 
('NumPy sum = ' + str 
(numpy.arange (7) .sum())) 


最 终 将 得 到 如 下 的 代码 。 


import webapp2 
import numpy 


class MainHandler 
(webapp2 .RequestHandler): 
def get (self): 
self.response.out.write('Hello world!<br/>') 
self.response.out .write('NumPy sum = ' + 
str(numpy.arange(7) .sum())) 


app = webapp2 .WSGIApplication([('/', MainHandler)], 
debug=True) 


在 GAE 启 动 器 中 点 击 Browse 按 钮 ， 将 在 默认 浏览 器 中 看 到 包含 如 下 文字 的 页 面 。 
Hello world! 


NumPy sum = 21 


4.10.2 ”攻略 小 结 


如 果 没 有 使 用 太 多 资源 ，GAE 的 使 用 是 免费 的 。 你 最 多 可 以 创建 10 个 Web 应 用 。GAE 采 用 了 
沙 箱 机 制 , 这 是 过 去 的 一 段 时 间 内 不 能 使 用 NumPy 的 原因 。 但 正如 本 攻略 所 示 , GAE 现 在 已 经 支 
持 NumPy 了 。 


还 需要 知道 的 是 , GAE 目 前 不 支持 关系 数据 库 。GAE 的 一 些 其 他 特性 也 会 影响 应 用 的 可 移植 性 。 


4.11 在 Python Anywhere 的 Web 控制 台中 运行 NumPy 代码 


在 第 1 章 中 ,在 没有 账号 的 情况 下 ， 我 们 已 经 实际 查看 了 Python Anywhere 的 控制 台 。 本 攻略 
需要 你 有 一 个 账号 。 但 不 必 担 心 ， 如 果 不 需要 太 多 资源 的 话 ， 可 以 申请 免费 账号 。 


注册 账号 是 一 个 很 简单 的 过 程 ， 这 里 就 不 介绍 了 。 包 括 NumPy 在 内 的 众多 Python 软件 已 经 安 
装 好 了 ， 这 些 软件 的 完整 列表 请 见 https://www.pythonanywhere.com/batteries_included/。 

我 们 将 编写 一 个 简单 的 脚本 ， 用 来 从 谷歌 财经 频道 获取 价格 数据 ( 每 分 钟 获取 一 次 )， 并 用 
NumPy 对 这 些 价 格 数据 做 简单 的 统计 分 析 。 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


4.11 在 Python Anywhere 的 Web 控制 台中 运行 NumPy 代 码 77 


4.11.1 具体 步骤 
注册 账号 并 登录 ， 将 看 到 如 下 的 Python Anywhere 仪 表盘 (dashboard )。 


Consoles Files Web Schedule MyvySOI 


Start a new console: 
Python: 2.7/2.6/32 IPython (0.12): 2.712.6/3.2 PyPy: 2.7 
Other: Bash | MySOQOI 


Your consoles: 


You have no consoles. Click a link above to start one. 
1. 编写 代码 。 
本 攻略 的 完整 代码 如 下 。 


import urllib2 
import re 
import time 
import sys 
import numpy 


prices = numpy.array([]) 


for i in xrange(3): 

req = urllib2.Request 
('http://finance.google.com/finance/ 
info?client=ig&q=' + sys.argv[1]) 

req.add header ('User-agent', 'Mozilla/5.0') 

response = urllib2.urlopen (req) 

page = response.read() 

m = re.search(']1 _ cur" : "(.*)"', page) 

prices = numpy.append (prices, float(m.group(1))) 

avg = prices.mean() 

sigma = prices.staqd!() 


devFactor = float(sys.argv[2]) 

bottom = avg - devFactor * sigma 

top = avg + devFactor * sigma 

timestr = time.strftime("%H:%M:%S", time.gmtime()) 


print timestr, "Average", avg, 


"Std", bottom, "+Std", top 
time.sleep (60) 
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我 们 创建 了 一 个 包含 股价 数据 的 NumPy 数 组 , 并 计算 了 这 些 数据 的 均值 和 标准 差 。 除 此 之 外 
都 是 标准 的 Python 代码 。 一 个 URL 被 用 来 从 谷歌 财经 频道 下 载 JSON 格 式 的 股价 数据 。 需 要 你 提 
供 股票 代码 ， 例 如 AAPL。 当 然 ， 这 个 URL 未 来 有 可 能 改变 。 

接 下 来 需要 用 正则 表达 式 解 析 JSON 格 式 的 数据 , 获取 股价 信息 并 添加 到 NumPy 数 组 。 然 后 ， 
利用 这 些 股价 数据 计算 均值 和 标准 差 。 最 后 打印 输出 当前 时 间 、 股 价 均值 和 置信 区 间 的 上 下 边界 。 
上 下 边界 值 的 计算 方法 是 用 标准 差 乘 以 一 个 我 们 提供 的 系数 。 


2. 上 传代 码 。 


在 本 机 编写 完 脚 本 代码 后 ， 就 可 以 把 它 上 传 到 Python Anywhere。 在 仪表 盘 页 面 中 点 击 Files 
标签 页 ， 利 用 页 面 底 端的 插件 上 传 该 脚本 。 


3. 运行 代码 。 
点 击 Consoles 标 签 页 ， 再 点 击 Bash 链 接 ，Python Anywhere 会 立刻 为 我 们 创建 一 个 bash 控 
制 台 。 


现在 可 以 运行 程序 。 如 果 选 择 AAPL 股 票 ， 置 信 区 间 设 定 为 一 倍 的 标准 差 ， 则 运行 结果 如 下 
图 所 示 。 


18:32 ~/cookbook $ python avg_ price.py AAPL 1 
15:31:29 Average 667.24 -Std 667.24 +Std 667.24 


15:32:29 Average 667.365 -Std 667.24 +Std 667.49 
15:33:29 Average 667.376666667 -Std 667.273279584 +Std 667.480053749 


4.11.2 ”攻略 小 结 


如 果 你 想 在 一 台 远 程 的 服务 器 上 运行 NumPy 代 码 , 特别 是 想 让 程序 在 预先 设 定 的 时 间 做 某 件 
事情 ，Python Anywhere 是 一 个 很 好 的 选择 。 男 一 方面 ， 至 少 对 于 免费 账户 而 言 ， 因 为 在 Web 控 制 
台 上 输入 文本 有 一 定 的 时 延 ， 所 以 在 Python Anywhere 上 做 交互 性 的 工作 并 不 太 方 便 。 


然而 , 正如 我 们 所 见 , 我 们 可 以 在 本 地 创建 和 测试 程序 , 然后 再 把 它 上 传 到 Python Anywhere。 
这 样 做 也 节省 了 本 地 资源 。 我 们 可 以 做 一 些 很 酷 的 事情 , 例如 根据 股价 高 低 发 送 电 子 邮 件 , 或 者 
调度 我 们 的 脚本 在 交易 时 间 运 行 。 顺 便 说 一 下 , 用 谷歌 应 用 程序 引擎 做 此 类 事情 也 是 可 能 的 , 但 
你 需要 遵循 谷歌 规定 的 方式 并 学 习 相 关 的 API。 


4.12 设置 PiCloud 


PiCloud 是 男 一 个 云 计 算 服务 的 提供 者 ， 它 实际 上 是 基于 亚马逊 的 EC2 基 础 平台 的 。PiCloud 
为 用 户 提 供 预 安装 了 Python 软 件 ( 包括 NumPy ) 的 环境 。 这 些 环境 其 实 就 是 可 以 远程 登录 的 EC2 
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实例 。 在 本 攻略 中 ， 我 们 将 使 用 基于 Ubuntu Natty 11.04 和 Python 2.7 的 环境 。 该 环境 中 已 经 安装 
的 软件 包 列 表 请 见 http://www.picloud.com/docs/base_environment/2/installed/。PiCloud 遵 循 免 费 增 
值 模式 ， 即 在 开始 阶段 可 以 免费 使 用 ， 以 后 如 果 需 要 较 多 资源 需要 付费 。 


4.12.1 具体 步骤 
注册 账号 并 登录 PiCloud。 
1. 创建 一 个 环境 。 


初始 状态 时 是 没有 环境 的 。 为 了 创建 一 个 环境 ， 首 先 点 击 Environment 标 签 页 ， 接 着 再 点 击 
create a new environment 按 钮 。 当 前 有 建立 在 Ubuntu 上 的 基于 Python 2.7 或 2.6 的 环境 可 供 选 择 ， 
请 选择 Python 2.7 环 境 。 


创建 环境 需要 几 分 钟 时 间 。 环 境 准 备 就 绪 后 ， 你 会 收 到 一 封 电子 邮件 ,并 在 浏览 器 中 看 到 类 
似 下 图 所 示 的 信息 。 


Environments being configured 


name description version status action 


ec2-107-20-19-178.compute-1.amazonawscom 


py27UbuntyNatty1104 Python 2.7 - Ubuntu Natty 11.04 
E ” >” g In configurable mode for 


create new environment 


2. 连接 到 环境 。 
点 击 action 栏 中 的 connect 链 接 ， 将 得 到 一 个 弹出 窗口 ， 窗 口中 显示 如 下 指令 。 


chmod 400 privatekey.pem 
ssh -i privatekey.pem picloud@yourserver.amazonaws .Com 


从 弹出 窗口 中 给 出 的 链接 地 址 下 载 私 铀 ， 然 后 使 用 上 述 指令 连接 到 环境 。 
3. 检查 版 本 号 。 
为 了 证 明 我 们 可 以 使 用 NumPy 和 Matplotlib ， 需 要 检查 一 下 它们 的 版 本 号 。 


首先 启动 一 个 IPython shell。 回 想 一 下 第 1 章 中 的 内 容 , 使 用 pylab 选 项 开关 可 以 自动 导入 包括 
NumPy 在 内 的 辕 干 个 包 。 执 行 如 下 命令 。 


ipython -pylab 


NumPy 和 Matplotlib 有 一 个 _version 属性 ， 其 内 容 就 是 版 本 号 。 打 印 如 下 版 本 号 。 
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In [1]: numpy. version 
Out [1]: '1.6.1' 


In [4] : matplotlib. version 
Out [4]: '1.0.1' 


4.12.2 ”攻略 小 结 

PiCloud 提 供 了 预 配置 的 亚马逊 EC2 实 例 , 其 中 包括 了 NumPy 在 内 的 各 种 Python 软件 包 。 可 以 
从 终端 程序 直接 访问 这 些 预 配置 的 环境 。 可 以 对 环境 进行 定制 并 保存 定制 结果 ， 以 便 将 来 使 用 。 
定制 后 的 环境 也 可 以 用 作 模 版 。 
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声音 和 图 像 处 理 


本 章 将 介绍 怎样 用 NumPy 和 SciPy 进 行 基本 的 图 像 和 声音 〈 WAV 文 件 ) 处 理 。 我 们 将 使 用 
NumPy， 用 声音 和 图 像 做 一 些 有 趣 的 事情 : 


口 加 载 图 像 到 内 存 映 射 区 

口 合并 图 像 

口 图 像 的 模糊 化 处 理 

口 复制 声音 片段 

口 合成 声音 

口 设计 音频 滤波 需 

口 用 索 贝 尔 滤波 器 进行 边缘 检测 


5.1 引言 


这 应 该 是 有 趣 的 一 章 。 虽 然 本 书 的 所 有 章节 都 很 有 趣 ， 但 在 本 章 中 ,我 们 将 尽 可 能 地 追 
求 乐 趣 ， 专 注 于 做 有 趣 的 事情 。 在 第 10 音 中， 你 将 看 到 更 多 使 用 scikits-image 实 现 图 像 处 理 的 
攻略 。 


很 遗憾 本 书 不 能 直接 支持 声音 文件 的 播放 。 你 需要 亲自 运行 范例 代码 ,以便 充 分 体会 和 了 解 
攻略 的 内 容 。 从 本 书 官网 http:/www.packtpub.com/ 可 以 获得 相关 的 源 代 码 。 


5.2 ”加 载 图像 到 内 存 映射 区 


建议 把 大 文件 加 载 到 内 存 映 射 区 。 内 存 映 射 文件 只 加 载 大 文件 的 一 小 部 分 。NumPy 的 内 存 
映射 是 类 数组 结构 。 本 例 中 , 我 们 将 生成 一 幅 由 若干 彩色 小 方块 构成 的 图 像 并 将 其 加 载 到 内 存 映 
射 区 。 
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5.2.1 准备 工作 


如 有 必要 ， 请 先 安 装 Matplotlib。 对 应 的 攻略 请 参见 后 面 的 “参考 阅读 ”小 节 。 


5.2.2 ”具体 步骤 
我 们 将 从 初始 化 数组 开始 介绍 。 
1. 初始 化 数组 。 
首先 对 如 下 的 数组 进行 初始 化 。 


口 用 于 保存 图 像 数 据 的 数组 

口 用 于 存放 随机 生成 的 小 方块 中 心 点 坐标 的 数组 
口 用 于 存放 随机 生成 的 小 方块 半边 长 的 数组 

口 用 于 存放 随机 生成 的 小 方块 颜色 的 数组 


数组 的 初始 化 代码 如 下 。 


img = numpy.zeros((N, N), numpy.uint8) 
centers = numpy.random.random integers 
(0, N, size= (NSQUARES, 2)) 
radii = numpy.random.randint 
(0, N/9, size=NSQUARES) 
colors = numpy.random.randint 
(100, 255, size=NSQUARES) 


如 你 所 见 , 第 一 个 数组 被 初始 化 为 全 零 数 组 , 其 他 数组 用 numpy.random 包 中 生成 随机 整数 的 
函数 进行 初始 化 。 
2. 生成 小 方块 。 


下 个 步骤 是 生成 小 方块 。 使 用 上 一 步 缀 创建 的 数组 生成 小 方块 。 通 过 使 用 clip 函 数 ， 可 以 
确保 这 些小 方块 不 会 超出 图 像 区 域 。 


meshgrid 荫 数 用 来 生成 小 方块 的 坐标 。 如 果 该 函数 的 输入 参数 是 大 小 为 N 和 M 的 两 个 一 维 
数组 ， 则 会 返回 两 个 N x M 的 二 维 数组 。 第 一 个 数组 中 的 元 素 沿 x 轴 方向 有 规律 地 重复 , 第 二 个 
数组 中 的 元 素 沿 y 轴 方向 有 规律 地 重复 。 下 面 这 段 IPython 会 话 清 楚 地 展示 了 meshgrid 捕 数 的 
功能 。 


In: x = linspace(1, 3, 3) 


In;: x 
Out: array([ 1., 2., 3.]) 
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In: yY = Linspace(1，2，2) 


In: Y 
Out : array([ 1., 2.]) 


In: meshgrid(x, y) 

Out: 

[array([[ 1., 2., 3.], 
[ 1., 2., 3.]]), 

array([[ 1., 1., 1.], 
[ 2., 2., 2.]])] 


之 后 还 需要 设置 小 方块 的 颜色 。 


for i in xrange (NSQUARES): 

xindices = range(centers[i][0] - radii[i], centers[i][0] + 
radii[i]) 

xindices = numpy.clip (xindices, 0, N - 1) 

yindices = range(centers[i][1] - radii[i], centers[i][1] + 
radii[i]) 

yindices = numpy.clip(lyindices, 0, N - 1) 


if len(xindices) == 0 or len(yindices) == 0: 
continue 


coordinates = numpy.meshgrid(xindices, yindices) 
img[coordinates] = colors[i] 


3. 加 载 图 像 数据 到 内 存 映射 区 。 


在 加 载 图 像 数 据 到 内 存 映射 区 之 前 ， 需 要 先 用 tofile 函 数 把 图 像 保 存 到 文件 ， 然 后 再 用 
memmap 函 数 把 图 像 数 据 从 文件 加 载 到 内 存 映射 区 。 


img.tofile('random squares.raw') 
img_memmap = numpy .memmap 
('random squares.raw', shape=img.shape) 


4. 显示 图 像 。 
为 了 证 明 一 切 都 符合 预期 ， 我 们 用 Matplotlib 显 示 图 像 。 
matplotlib.pyplot.imshow (img_memmap) 


matplotlib.pyplot.axis('off') 
matplotlib.pyplot.show!() 


注意 ， 这 里 设置 了 不 显示 坐标 轴 。 最 终生 成 的 图 像 的 一 个 实例 如 下 。 
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本 攻略 的 完整 代码 如 下 。 


import numpy 


import matplotlib.pyplot 


import sys 


N= 512 

if(len(sys.argv) != 2): 
print "Please input the number of squares to generate" 
sys.exit() 

NSQUARES = int(sys.argv[1]) 


# 初始 化 


img = numpy.zZeros((N, N), numpy.uint8) 


centers = numpy.random.random integers(0, N, size= (NSQUARES, 
radii = numpy.random.randint (0, N/9, size=NSQUARES) 
colors = numpy.random.randint (100, 255, size=NSQUARES) 


# 生成 小 方块 


for i in xrange (NSQUARES): 


xindices 


= range(centers[i][0] - radii[i], centers[i][0] 
xindices = numpy.clip(xindices, 0, N - 1) 
yindices = range(centers[i][1] - radii[i], centers[i][1] 
yindices = numpy.clip(yindices, 0, N - 1) 
If len(xindices) == 0 or len(yindices) == 0: 
continue 


coordinates = numpy.meshgrid(xindices, yindices) 
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+ radii[i]) 


+ radii[i]) 


5.3 合并 图 像 85 


img[coordinates] = colors[i] 


# 加 载 到 内 存 映 射 区 
img.tofile('random squares.raw') 
img_ memmap = numpy.memmap('random squares.raw', shape=img .shape) 


# 显示 图 像 
matplotlib.pyplot.imshow(img_ memmap) 


matplotlib.pyplot.axis('off') 
matplotlib.pyplot.show!() 


5.2.3 ”攻略 小 结 
在 本 攻略 中 ， 我 们 用 到 了 下 列 函 数 。 


函 数 功能 描述 

zeros 创建 一 个 全 零 数组 

random_integers 返回 一 个 整数 数组 ， 其 取 值 为 上 下 边界 值 之 间 的 随机 整数 
randint 功能 同 random integers 


clip 给 定 最 大 值 和 最 小 值 ， 对 超出 这 个 范围 的 数组 元 素 的 取 值 进 


小 值 ) 
meshgrid 输入 一 个 x 坐标 数组 和 一 个 y 坐 标 数 组 ， 返 回 二 维 坐 标 数 组 
tofile 把 数组 内 容 写 人 文件 
memmap 给 定 文件 名 ， 从 该 文件 创建 一 个 NumPy 内 存 映射 文件 。 可 以 指定 数组 的 形状 ( 可 选 ) 
axis 绘图 时 配置 轴 的 Matplotlib 函 数 ， 例 如 可 以 让 轴 不 显示 


5.2.4 ”参考 阅读 


口 1.5$ 节 “安装 Matplotlib” 


5.3 合并 图 像 


在 本 攻略 中 ， 我 们 将 把 著名 的 曼 德 勃 罗 分 形 图 ( Mandelbrot fractal ) 和 图 像 Lena 进 行 合并 。 
有 关 曼 德 勃 罗 集 的 更 多 信息 请 见 http:Wen.wikipedia.org/wiki/Mandelbrot set。 此 类 分 形 可 以 被 定义 
为 一 个 迭代 公式 ， 当 前 的 复数 值 的 平方 ， 加 上 一 个 常数 ， 就 得 到 下 一 个 复数 值 。 


5.3.1 准备 工作 
如 有 必要 ， 请 先 安装 SciPy。 相 关 的 攻略 请 见 后 面 的 “参考 阅读 ”小 入。 
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5.3.2 ”具体 步骤 
我 们 将 首先 初始 化 数组 ， 接 着 生成 和 绘制 分 形 图 ， 最 后 把 分 形 图 并 人 图 像 Lena。 
1. 初始 化 数组 。 


用 meshgrid、zeros 和 1inspace 国 数 , 把 图 像 上 各 个 像素 对 应 的 x、y 和 z 数 组 进行 初始 化 。 


x, y = numpy.meshgrid(numpy.linspace 
(XK min, XK max, SIZE), 


numpy.linspace(ly_min, y_max, SIZE)) 
C=XX+ 1j]*yYy 
p(y 
fractal = numpy .zeros 


(z.shape, dtype=numpy.uint8) + 
MAX_COLOR 


2. 生成 分 形 图 。 
如 果 z 是 一 个 复数 ， 则 曼 德 过 罗 分 形 的 迭代 公式 是 : 


Zn+1 一 2 十 C 


上 式 中 c 是 复 常 数 。 可 以 用 图 形 化 的 方式 在 复 平 面 中 表示 曼 德 勃 罗 分 形 ， 实 轴 对 应 z 的 实 部 ， 
虚 轴 对 应 z 的 虚 部 。 我 们 将 使 用 逃逸 时 间 算 法 绘制 分 形 图 。 


首先 选 定 一 个 到 原点 的 距离 不 超过 指定 值 (2 左右 ) 的 小 区 域 ， 该 算法 将 扫描 这 个 区 域内 的 
各 个 点 。 这 个 区 域 中 的 每 个 点 都 被 用 作 一 个 c 值 ， 每 个 点 的 颜色 由 该 点 逃离 这 个 区 域 所 需要 的 迭 
代 次 数 决定 。 如 果 这 个 迭代 次 数 超出 某 个 预先 设 定 的 值 ， 则 该 点 的 颜色 就 设 定 为 默认 的 背景 色 。 
更 多 相关 的 信息 请 浏览 前 面 提 到 的 维基 百科 页 面 。 


for n in range (ITERATIONS): 
print n 
mask = numpy.abs(z) <= 4 


zlImask] = z[mask] ** 2 + clmask] 
fractal[ (fractal == MAX COLOR) & 
(-mask)] = (MAX COLOR - 1) * 


n / ITERATIONS 
3. 绘制 分 形 图 。 


用 Matplotlib 绘 制 分 形 图 。 


matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow (fractal) 
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matplotlib.pyplot.title('Mandelbrot') 
matplotlib.pyplot.axis('off') 


4. 把 分 形 图 和 图 像 Lena 合 并 。 
使 用 choose 函 数 ， 从 分 形 图 或 图 像 Lena 中 选择 各 点 的 取 值 。 


matplotlib.pyplot.subplot (212) 
matplotlib.pyplot.imshow (numpy .choose 
(fractal < lena, [fractal, lenal)) 
matplotlib.pyplot.axis('off') 

matplotlib.pyplot.title 
('Mandelbrot + Lena') 


最 终生 成 如 下 的 图 形 。 


Mandelbrot 


Mandelbrot + Lena 


本 攻略 的 完整 代码 如 下 。 


import numpy 

import matplotlib.pyplot 
import sys 

import scipy 


if(len(sys.argv) != 2): 
print "Please input the number of iterations for the fractal" 
SYS .exit() 


ITERATIONS = int(sys.argv[1]) 
lena = scipy.misc.lenal) 
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SIZE = 
MAX_COLOR 


X_max 


x_min, 


yY_min, y_max 


# 初始 化 数组 


全 
C=X+1j*y 
we Ceopyt} 
fractal = 


# 生成 分 形 图 


numpy.meshgrid(numpy.linspace(x_min, 


numpy .Zeros(z.shape, 


lena.shape[l0] 
255 . 


32%,5; 
a 


1 


SIZE 
) ) 


Xx_max, 
SIZE 


numpy.linspace(ly_min, y_max, 


dtype=numpy .uint8) 


for n in range (ITERATIONS): 


+ MAX COLOR 


print n 
mask = numpy.abs(z) <= 4 
zlImask] = z[mask] ** 2 + clmask] 
fractal[ (fractal == MAX COLOR) & (-mask)] = (MAX COLOR - 1) * n/ IT 
# 显示 分 形 图 
matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow(fractal) 
matplotlib.pyplot.title('Mandelbrot') 
matplotlib.pyplot.axis('off') 
# 与 图 像 Lena 合 并 
matplotlib.pyplot.subplot (212) 
matplotlib.pyplot.imshow(numpy.choose(fractal < lena, [fractal, lenal)) 
matplotlib.pyplot.axis('off') 
matplotlib.pyplot.title('Mandelbrot + Lena') 
matplotlib.pyplot.show!() 


5.3.3 ”攻略 小 结 


在 本 攻略 中 ， 我 们 用 到 了 下 列 函 数 。 


函数 


功能 描述 


ERATIONS 


linspace 
choose 


meshgrid 


5.3.4 ”参考 阅读 


回 茶 个 范围 内 的 指定 间距 的 数列 


返 
根 
输入 一 个 x 坐标 数组 和 一 个 y 坐 标 数组 ， 返 


口 1.5 节 “安装 Matplotlib” 
口 2.2 节 “安装 SciPy” 
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据 给 定 条 件 从 数组 中 选择 数值 并 创建 一 个 新 的 数组 


可 二 维 坐标 数组 
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5.4 图 像 的 模糊 化 处 理 


我 们 可 以 用 高 斯 滤波 器 对 图 像 进行 模糊 化 处 理 。 更 多 关于 高 斯 滤波 器 的 信息 请 见 


http://en.wikipedia.org/wiki/Gaussian filter。 局 
斯 滤波 带 函 数 ， 需 要 用 标准 差 作为 输入 参数 。 


斯 滤波 器 基于 正 态 分 布 。 在 SciPy 中 有 一 个 对 应 的 高 


在 本 攻略 中 ,我 们 还 将 绘制 一 条 极 坐 标的 玫瑰 线 (polar rose ) 和 一 条 螺 线 (更 多 有 关 极 坐标 
系 的 信息 请 见 http://en.wikipedia.org/wiki/Polar_coordinate_system )。 这 些 图 案 和 图 像 的 模糊 化 处 理 
并 不 直接 相关 ， 把 它们 添加 到 图 像 中 ， 只 是 为 了 更 有 趣 。 


5.4.1 具体 步骤 


为 了 在 极 坐标 系 下 绘图 , 首先 要 做 一 些 初始 化 工作 。 接 着 将 对 图 像 Lena 进 行 模糊 化 处 理 ， 并 


把 它 绘制 在 极 坐标 平面 内 。 
1. 初始 化 。 


为 了 在 极 坐标 系 下 绘图 ， 需 要 做 如 下 的 初始 化 工作 。 


NFIGURES = int(sys.argv[1]) 

k = numpy.random.random integers 
(1, 5, NFIGURES) 

a = numpy.random.random integers 
(1, 5, NFIGURES) 


SOLloOrs = [B,J EL SO 
"i, Ia 四 | 


2. 对 图 像 Lena 进 行 模糊 化 处 理 。 


matplotlib.pyplot.subplot (212) 


使 用 高 斯 滤波 器 对 图 像 Lena 进 行 模糊 化 处 理 ， 标 准 差 的 取 值 为 4。 


blurred = scipy.ndimage.gaussian filter 


(lena, sigma=4) 


matplotlib.pyplot.imshow(blurred) 
matplotlib.pyplot.axis('off') 


3. 在 极 坐 标 系 下 绘图 。 


Matplotlib 中 有 一 个 polar 函 数 ， 用 来 在 极 坐标 系 下 绘图 。 


theta = numpy.linspace 
(0, k[0] * numpy.pi, 200) 
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matplotlib.pyplot.polar 
(theta, numpy.sqrt (theta), choice(colors)) 


for i in xrange(1, NFIGURES): 
theta = numpy.linspace 
(0, k[i] * numpy.pi, 200) 
matplotlib.pyplot.polar 
(theta, al[lil] * numpy.cos (kKk[i] * 
theta), choice(colors)) 


最 终生 成 如 下 的 图 形 。 


本 攻略 的 完整 代码 如 下 。 


import numpy 

import matplotlib.pyplot 
from random import choice 
import sys 

import scipy 

import scipy.ndimage 


# 初始 化 
NFIGURES = int(sys.argv[1]) 
k = numpy.random.random integers(1, 5, NFIGURES) 


a = numpy.random.random integers(1, 5, NFIGURES) 


ee 一 本 
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lena = scipy.misc.lenal) 
matplotlib.pyplot.subplot (211) 
matplotlib.pyplot.imshow (lena) 
matplotlibD..pyPlot. axis(Of€") 
# 对 图 像 Lena 进 行 模糊 化 处 理 
matplotlib.pyplot.subplot (212) 


blurred = scipy.ndimage.gaussian filter(lena, sigma=4) 


matplotlib.pyplot.imshow(blurred) 


matplotlib.pyplot.axis('off') 


# 在 极 坐 标 系 下 绘图 
theta = numpy.linspace(0, k[0] * numpy.pi, 200) 


matplotlib.pyplot.polar (theta, numpy.sqrt (theta), choice(colors)) 


for i in xrange(1, NFIGURES): 
theta = numpy.linspace(0, k[i] * numpy.pi, 200) 


matplotlib.pyplot.polar (theta, al[lil] * numpy.cos(k[i] * theta), choice(colors)) 


matplotlib.pyplot.axis('off') 


matplotlib.pyplot.show!() 


5.4.2 ”攻略 小 结 
在 本 攻略 中 ， 我 们 用 到 了 下 列 函 数 。 


函 数 功能 描述 
gaussian filter 应 折 滤 波 器 


random_ integers 返回 一 个 数组 ， 数 组 元 素 是 给 定 的 上 下 边界 之 间 的 随机 整数 
polar 在 极 坐 标 系 下 绘图 


5.5 ”复制 声音 片段 


正如 我 们 在 第 2 章 所 见 , 只 需要 下 载 WAV 文 件 并 用 SciPy 加 载 , 就 可 以 对 WAV 文 件 做 一 些 简洁 
的 操作 。 本 攻略 中 , 我 们 将 下 载 一 个 WAV 文 件 并 把 其 中 包含 的 声音 片段 重复 三 次 。 我 们 将 略 去 一 
些 在 第 2 章 中 已 经 介绍 的 步骤 。 
5.5.1 具体 步骤 

1. 复制 声音 片段 。 


虽然 NumPy 中 有 一 个 repeat 函 数 , 但 在 本 攻略 中 选用 tile 函 数 才 是 更 适当 的 选择 。repeat 
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8 干 次 的 方式 来 达到 扩展 数组 的 效果 , 而 不 是 把 数组 内 容 作 为 一 
整体 进行 复制 。 


如 下 的 IPython 会 话 清楚 地 展示 了 这 两 个 函数 的 区 别 。 


In: x = array([1, 2]) 


In;: x 
Out: array([1, 2]) 


In: repeat (x, 3) 
Out: array([1, 1, 1, 2, 2, 2]) 


In: tile(x, 3) 
Out: array([1, 2, 1, 2, 1, 2]) 


了 解 这 个 知识 点 后 ， 使 用 tile 函 数 处 理 数据 。 
repeated = numpy.tile(data, int(sys.argv[1])) 
2. 绘制 声音 数据 。 


用 Matplotlib 绘 制 声 音 数 据 。 


matplotlib.pyplot.title("Repeated") 
matplotlib.pyplot.plot (repeated) 


原始 的 声音 数据 和 复制 后 的 数据 如 下 图 所 示 。 


原始 的 声音 数据 


上 由 册 上 上 由 册 由 由 
0 5000 10000 15000 20000 25000 30000 35000 40000 


250 T T 委 科 后 的 户 音 数据 T T 


20000 40000 60000 80000 100000 120000 140000 
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本 攻略 的 完整 代码 如 下 。 


import scipy.io.wavfile 
import matplotlib.pyplot 
import urllib2 

import numpy 

import sys 


response = 
urllib2.urlopen('http://ww.thesoundarchive.com/austinpowers/smashingbaby .wav') 
print response.info() 

WAV_FILE = 'smashingbaby .wayv' 

filehandle = open (WAV_FILE, 'w') 
filehandle.write(response.read()) 
filehandle.close() 

sample_ rate, data = scipy.io.wavfile.read (WAV_FILE 
print "Data type", data.dtype, "Shape", data.shape 


matplotlib.pyplot.subplot(2, 1, 1) 
matplotlib.pyplot.title("Original") 
matplotlib.pyplot.plot (data) 


matolotliBD pyolot .SuBblot (2; 二 2) 


# 复制 声音 片段 

repeated = numpy.tile(data, int(sys.argv[1])) 
# 绘制 声音 数据 
matplotlib.pyplot.title("Repeated") 
matplotlib.pyplot.plot (repeated) 
scipy.io.wavfile.write("repeated yababy.wav'", 


sample_rate, repeated) 


matplotlib.pyplot.show!() 


5.5.2 ”攻略 小 结 
本 攻略 用 到 的 几 个 最 重要 的 函数 如 下 。 


函 数 功能 描述 
scipy.io.wavfile.read 把 WAV 文 件 加 载 到 数组 


numpy.tile 把 数组 内 容重 复 指定 次 数 


scipy.io.wavfile.write 按照 指定 的 采样 率 ， 从 NumPy 数 组 创建 WAV 文 人 
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5.6 合成 声音 


声音 在 数学 上 可 以 表示 为 具有 特定 幅度 、 频 率 和 相位 的 正 艾 波 。 我 们 可 以 从 维基 百科 页 面 
http:/en.wikipedia.org/wiki/Piano key_frequencies 提 供 的 列表 中 随机 地 选择 频率 。 这 些 频率 值 是 用 
如 下 公式 得 到 的 。 


全 一 和 
时 


A440 .21 


上 式 中 的 变量 n 是 钢琴 中 的 琴键 编号 ， 其 取 值 范围 是 1~88。 幅 度 、 持 续 时 间 和 相位 参数 将 随 
机 选取 。 


5.6.1 具体 步骤 
首先 将 初始 化 随机 变量 ， 再 生成 正弦 波 ， 然 后 谱 曲 ， 最 后 用 Matplotlib 绘 制 生成 的 声音 数据 。 
1. 初始 化 。 
随机 变量 的 初始 化 : 


口 幅度 值 在 200 到 2000 之 间 
口 持续 时 间 在 0.01 到 0.2 之 间 
口 用 上 述 公 式 选 择 频 率 

口 初始 相位 值 在 0 到 2r 之 间 
D NTONES = int(sys.argv[1]) 


amps = 2000. * numpy.random.random 


( (NTONES,)) + 200. 
durations = 0.19 * numpy.random.random 
((NTONES,)) + 0.01 


keys = numpy.random.random integers 
(1, 88, NTONES) 
freqs = 440.0 * 2 ** ((keys - 49.)/12.) 
phi = 2 * numpy.pi * numpy.random.random( (NTONES, )) 


2. 生成 正弦 波 。 
细 写 gen rate 国 数 ， 用 来 生成 正弦 波 。 


def generate(freq, amp, duration, phi): 
t = numpy.linspace 

(0, duration, duration * RATE) 

data = numpy.sin(2 * numpy.pi * 
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freq * 七 + phi) * amp 


] 


return data.astype (DTYPE 


3. 谱 曲 。 


生成 数 个 声调 后 ， 我 们 需要 谱写 一 段 连贯 的 旋律 。 我 们 暂时 只 是 把 各 个 正弦 波 连 接 在 一 起 。 
这 不 会 生成 一 段 好 听 的 旋律 ， 但 可 以 作为 一 个 起 点 ， 以 后 可 以 做 更 多 的 尝试 。 


for i in xrange (NTONES ) : 
newtone = generate(fregqs[i], amp=amps[i], 
duration=durations[i], phi=phi[i]) 
tone = numpy.concatenatel( (tone, newtone)) 


4. 绘制 数据 。 


用 Matplotlib 绘 制 合 成 的 声音 数据 。 


matplotlib.pyplot.plot (numpy.linspace 
(0, lenl(tone)/RATE, len(tone)), tone) 
matplotlib.pyplot.show!() 


合成 的 声音 数据 如 下 图 所 示 。 


3000 


2000 


1000 


一 1000 


一 2000 


-30000 


本 攻略 的 完整 代码 如 下 。 


import scipy.io.wavfile 
import numpy 
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import sys 
import matplotlib.pyplot 


RATE = 44100 
DTYPE = numpy.int16 


U [DD 
1 


# 生成 正弦 波 


def generate(freq, amp, duration, phi): 


t = numpy.linspace(0, duration, duration * RATE) 
) 


data = numpy.sin(2 * numpy.pi * freq * 七 + phi) * amp 


return data.astype (DTYPE 


if len(sys.argv) != 2: 
print "Please input the number of tones to generate" 
Sys .exit() 
# 初始 化 
NTONES = int(sys.argv[1]) 
amps = 2000. * numpy.random.random( (NTONES,)) + 200. 
durations = 0.19 * numpy.random.random( (NTONES,)) + 0.01 
keys = numpy.random.random integers(1, 88, NTONES) 


freqs = 440.0 * 2 ** ((keys - 49.)/12.) 
phi = 2 * numpy.pi * numpy.random.random( (NTONES, )) 


tone = numpy.array ([], dtype=DTYPE 


# 谱 曲 
for i in xrange (NTONES) : 


newtone = generate(fregqs[i], amp=amps[i], duration=durations[i], phi=phi[i]) 


tone = numpy.concatenatel( (tone, newtone)) 


scipy.io.wavfile.write('generated tone.wav', RATE, tone) 


# 绘制 声音 数据 
matplotlib.pyplot.plot (numpy.linspace(0, len(tone)/RATE, lenl(tone)), tone) 
matplotlib.pyplot.show!() 


5.6.2 ”攻略 小 结 
我 们 用 随机 生成 的 声音 创建 了 一 个 WAV 文 件 。 concatenate 哺 数 用 来 把 各 个 正弦 波 连接 起 来 。 


5.7 ”设计 音频 滤波 器 


我 记得 当初 是 在 模拟 电子 技术 课 上 学 习 了 各 种 类 型 的 滤波 器 ， 之 后 又 实际 构建 了 这 些 滤 波 
顺 。 正 如 你 能 想到 的 ， 用 软件 实现 一 个 滤波 需 比 用 硬件 实现 要 容易 得 多 。 
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我 们 将 构建 一 个 滤波 器 ,并 把 它 应 用 于 我 们 下 载 的 一 个 音频 片段 。 在 本 章 前 面 的 攻略 中 , 已 
经 介绍 了 一 些 相关 的 基本 步 又 ， 此 处 不 再 重复 介绍 。 


5.7.1 具体 步骤 


顾名思义 ，iirdesign 函 数 可 以 用 来 构建 多 种 类 型 的 模拟 和 数字 滤波 右 。scipy.signal 模 块 包 
含 了 各 种 和 信号 处 理 有 关 的 函数 ， 其 中 包括 iirdesign 孙 数 。 


1. 设计 滤波 需 。 
下 面 用 scipy.signal 模 块 中 的 iirdesign 函 数 设 计 滤波 器 。 


IIR 表 示 无 限 冲 激 响应 (Infinite Impulse Response )， 更 多 相关 的 信息 请 见 维基 百科 页 面 
http://en.wikipedia.org/wiki/Infinite impulse response。 有 关 iiradesign 函 数 的 各 种 细节 , 这 里 不 做 
介绍 。 如 有 必要 ， 请 查阅 相关 的 文档 页 面 http://docs.scipy.org/doc/scipy/reference/generated/scipy. 


signal.lirdesign.html。 
简 而 言 之 ,我 们 将 设置 如 下 参数 。 
口 取 值 范围 在 0 到 1 之 间 的 归 一 化 频率 
口 通 带 最 大 衰减 
口 阻 带 最 小 衰减 
口 滤波 絮 类 型 


b,a = scipy.signal.iirdesign 
(wp=0.2, ws=0.1, gstop=60, 
gpass=1, ftype='butter') 


上 述 的 配置 参数 对 应 的 是 一 个 巴特 沃 思 带 通 滤波 器 。 更 多 有 关 巴 特 沃 思 带 通 滤波 右 的 信息 请 
MLhttp://en.wikipedia.org/wiki/Butterworth filter。 

2. 使 用 滤波 器 。 

使 用 scipy .signal.1filter 也 数 完成 滤波 器 有 关 的 计算 工作 。 该 聘 数 的 输入 参数 是 上 述 
步 又 中 iirdqesign 函 数 的 返回 结果 和 一 个 待 滤波 的 数组 。 


filtered = scipy.signal.lfilter(b, a, data) 
3. 保存 新 的 音频 文件 。 
把 滤波 后 的 音频 数据 写 入 文件 时 ， 需 要 确保 其 数据 类 型 与 原始 的 音频 数据 相同 。 


scipy.io.wavfile.write('filtered.wav', 
sample_rate, filtered.astype(data.dtype)) 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


98 ”第 5 章 声音 和 图 像 处 理 


绘制 出 原始 的 和 滤波 后 的 音频 数据 后 ， 我 们 得 到 如 下 的 图 形 。 


原始 的 音频 数据 


250 T T 


0 5000 10000 15000 20000 25000 30000 35000 40000 45000 
i50 滤波 后 的 音频 数据 
T T T T T 


0 5000 10000 15000 20000 25000 30000 35000 40000 45000 


音频 滤波 融 的 完整 代码 如 下 。 


import scipy.io.wavfile 
import matplotlib.pyplot 
import urllib2 

import scipy.signal 


response = urllib2 .urlopen 
('http://www.thesoundarchive.com/austinpowers/smashingbaby .wav') 


print response.info() 


WAV_FILE = 'smashingbaby .wayv' 
filehandle = open (WAV_FILE, 'w') 
filehandle.write(response.read()) 


filehandle.close() 
sample rate, data = scipy.io.wavfile.read (WAV_FILE) 
print "Data type", data.dtype, "Shape", data.shape 


matplotlib.pyplot.subplot(2, 1, 1) 
matplotlib.pyplot.title("Original") 


matplotlib.pyplot.plot (data) 


# 设计 滤波 器 
b,a = scipy.signal.iirdesign (wp=0.2, ws=0.1, gstop=60, gpass=1, ftype='butter') 


# 滤波 
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filtered = scipy.signal.lfilter(b, a, data) 
# 绘制 滤波 后 的 数据 
matplotlib.pyplot.subplot(2, 1, 2) 
matplotlib.pyplot.title("Filtered") 
matplotlib.pyplot.plot (filtered) 


scipy.io.wavfile.write('filtered.wav', sample_ rate, filtered.astype(data.dtype)) 


matplotlib.pyplot.show!() 


5.7.2 ”攻略 小 结 
我 们 创建 和 使 用 了 一 个 巴特 沃 思 带 通 滤波 右 。 为 了 创建 滤波 器 ， 我 们 使 用 了 下 列 函 数 。 


函 数 功能 描述 
scipy.signal.iirdesign 创建 一 个 IR 类 型 的 数字 或 模拟 滤波 器 。 该 函数 支持 丰富 的 参数 选项 ， 
相关 的 文档 请 见 http://docs.scipy.org/doc/scipy/reference/generated/ 


ipy.signal.iirdesign.html 
scipy.signal.1filter 和 给 定 的 数字 滤波 右 对 数组 滤波 


5.8 ”用 索 贝尔 滤波 器 进行 边缘 检测 


索 贝 尔 算 子 ( Sobel operator， 更 多 相关 信息 请 见 http:/en.wikipedia.org/wiki/Sobel operator ) 
可 被 用 来 做 图 像 的 边缘 检测 。 此 类 边缘 检测 就 是 对 图 像 的 亮度 进行 离散 差分 运算 。 因 为 图 像 是 二 
维 的 ,所 以 差分 运算 所 得 的 梯度 值 也 有 两 个 分 量 。 当 然 我 们 可 以 选择 只 计算 某 一 个 维度 的 梯度 值 。 
我 们 将 对 图 像 Lena 应 用 索 贝 尔 滤波 器 。 


5.8.1 具体 步骤 
我 们 将 以 图 像 Lena 为 研究 对 象 ， 学 习 怎样 用 索 贝 尔 滤 波 器 进行 边缘 检测 。 
1. 在 x 轴 方向 应 用 索 贝 尔 滤波 器 。 
为 了 在 x 轴 方向 应 用 索 贝 尔 滤波 器 ， 需 要 把 参数 axis 设 置 为 0。 


sobelx = scipy.ndimage.sobel 
(lena, axis=0, mode='constant') 


2. 在 y 轴 方向 应 用 索 贝 尔 滤波 央 。 
为 了 在 y 轴 方向 应 用 索 贝 尔 滤 波 器 ， 需 要 把 参数 axis 设 置 为 1。 
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sobely = scipy.ndimage.sobel 
(lena, axis=1, mode='constant') 


3. 默认 方式 使 用 索 贝 尔 滤 波 器 。 
默认 方式 使 用 索 贝 尔 滤波 器 时 ， 只 需要 提供 一 个 数组 : 
default = scipy.ndimage.sobel (lena) 


原始 图 像 和 处 理 后 的 图 像 如 下 图 所 示 。 该 图 展示 了 用 索 贝 尔 滤 波 器 进行 边缘 检测 的 效果 。 


原始 图 像 在 x 轴 方 向 应 用 索 贝尔 滤波 器 


在 y 轴 方向 应 用 索 贝尔 滤波 器 默认 方式 使 用 索 贝尔 滤波 器 


完整 的 边缘 检测 代码 如 下 。 


import scipy 
import scipy.ndimage 
import matplotlib.pyplot 


lena = scipy.misc.lenal() 
matplotlib.pyplot.subplot (221) 
matplotlib.pyplot.imshow (lena) 


matplotlib.pyplot.title('Original') 
matplotlib.pyplot.axis('off') 


# 在 X 轴 方向 应 用 索 贝 尔 滤波 器 


sobelx = scipy.ndimage.sobel (lena, axis=0, mode='constant') 


matplotlib.pyplot.subplot (222) 
matplotlib.pyplot.imshow (sobelx) 
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matplotlib.pyplot.title('Sobel X') 
matplotlib.pyplot.axis('off') 


# 在 Y 轴 方向 应 用 索 贝 尔 滤波 器 


sobely = scipy.ndimage.sobel (lena, axis=1, mode='constant') 


matplotlib.pyplot.subplot (223) 
matplotlib.pyplot.imshow (sobely) 
matplotlib.pyplot.title('Sobel Y') 
matplotlib.pyplot.axis('off') 


# 默认 方式 使 用 索 贝 尔 滤波 器 


default = scipy.ndimage.sobel (lena) 


matplotlib.pyplot.subplot (224) 
matplotlib.pyplot.imshow (default) 
matplotlib.pyplot.title('Default Filter') 
matplotlib.pyplot.axis('off') 


matplotlib.pyplot.show!() 


5.8.2 ”攻略 小 结 


我 们 把 索 贝尔 滤波 避 应 用 于 图 像 Lena。 正 如 我 们 所 见 , 我 们 可 以 指定 沿 某 个 轴 向 进行 滤波 运 
算 。 默 认 设置 是 不 指定 轴 向 的 。 
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本 章 主 要 内 容 : 


口 创建 一 个 通用 函数 

口 寻找 勾 股 数 

口 用 chararray 做 字符 串 操作 

口 创建 一 个 masked 类 型 的 数组 

口 忽略 负 值 和 极 值 

口 用 recarray 数 组 创建 评分 表 


0 
二 
了 中 


本 章 将 介绍 NumPy 的 特殊 类 型 数组 和 通用 函数 。 你 未 必 会 天 天 用 到 这 些 内 容 , 但 其 重要 性 不 
容 低估 。 通 用 函数 (Universal fbnctions， 人 简称 Ufuncs ) 可 以 对 数组 的 每 一 个 元 素 逐 一 进行 操作 ， 
也 可 以 用 来 对 标量 进行 操作 。Ufuncs 的 输入 参数 是 一 组 标量 ， 其 返回 值 是 另 一 组 标量 。 加 减 乘除 
等 各 种 数学 运算 都 有 对 应 的 通用 函数 。 本 章 介绍 的 几 种 特殊 类 型 的 数组 , 都 是 基本 的 NumPy 数 组 
对 象 的 子 类 ， 都 提供 了 额外 的 功能 。 


6.2 创建 一 个 通用 函数 


使 用 NumPy 中 的 frompyfunc 函 数 ， 可 以 利用 一 个 Python 函数 创建 通用 函数 。 


6.2.1 具体 步骤 
下 面 是 创建 一 个 通用 函数 的 步 又。 
1. 定义 Python 函数 。 


定义 一 个 简单 的 Python 函数 ， 其 功能 是 把 输入 值 加 倍 。 
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def double(a): 
return 2 * a 


2. 创建 通用 函数 。 
用 frompvyfunc 创 建 通用 函数 时 ， 需 要 指明 输入 参数 的 个 数 和 返回 对 象 的 个 数 。 


import numpy 


def double(a): 
return 2 * a 


ufunc = numpy.frompyfunc (double, 1, 1) 
print "Result", ufunc (numpy.arange (4)) 


上 述 代码 执行 后 ， 输 出 如 下 结果 。 


Result [0 2 4 6] 


6.2.2 ”攻略 小 结 


我 们 定义 了 一 个 Python 函 数 ， 其 功能 是 把 输入 值 加 倍 。 实 际 上 把 字符 串 作为 这 个 函数 的 输入 
值 也 是 可 以 的 ，Python 语 法 允许 这 样 做 。 我 们 用 NumPy 中 的 Erompyfunc 了 函数 ， 基 于 这 个 Python 
函数 创建 了 一 个 通用 函数 。 


6.3 寻找 勾 股 数 


勾 股 数 即 毕 氏 三 元 数 (Pythagorean triple )， 有 关 勾 股 数 的 更 多 信息 请 见 维基 百科 页 面 
http://en.wikipedia.org/wiki/Pythagorean_triple。 勾 股 数 和 勾 股 定理 ( 毕 式 定理 ) 是 紧密 相关 的 。 想 
必 你 在 中 学 时 代 的 几何 课 中 ,已 经 学 过 勾 股 定理 了 。 


构成 色 股 数 的 三 个 自然 数 分 别 代表 直角 三 角形 的 三 条 边 , 因此 遵守 勾 股 定理 。 本 例 将 寻找 三 
个 自然 数 的 和 等 于 1000 的 勾 股 数 ， 这 需要 用 到 欧 儿 里 得 公式 : 


我 们 将 在 本 例 中 看 到 几 个 通用 函数 的 实际 运用 。 


6.3.1 具体 步骤 
欢 几 里 得 公式 定义 了 索引 m 和 nm。 
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1. 创建 数组 m 和 数组 n。 
创建 数组 ， 用 来 存放 索引 。 


m = numpy.arange (33) 
n = numpy.arange (33) 


2. 计算 勾 股 数 的 构成 元 素 a、b 和 c。 


使 用 欧 几 里 得 公式 ， 计 算 色 股 数 的 构成 元 素 a、b 和 c。 对 数组 进行 求 积 、 求 差 和 求 和 运算 时 ， 
需要 用 到 outer 了 函数 。 


a = TUmpDYy. SUbtract,. outer(m ** 2, TE ** 2) 
b= 2 * numpy.multiply.outer(m, n) 
& = monpv ,aaa Duter (人 ** 2, ™ ** 2) 


3. 找到 符合 要 求 的 索引 。 


现在 已 经 生成 了 分 别 包 含 勾 股 数 的 构成 元 素 a、b 和 c 的 三 个 数组 。 需 要 进一步 寻找 符合 要 求 
的 色 股 数 。 使 用 NumPy 的 where 隐 数 ， 可 以 获得 符合 要 求 的 色 股 数 的 索引 。 


idx = numpy.where((a + b+ c) == 1000) 
4. 检查 得 到 的 结果 。 
用 numpy.testing 模 块 检查 得 到 的 结 


numpy .testing.assert_ equal 
(a[idx]**2 + b[idx]**2, c[idx]**2) 


本 攻略 的 完整 代码 如 下 。 


import numpy 
import numpy.testing 


名 股 数 〈 毕 氏 三 元 数 ) 由 三 个 自然 数 a、D、c 构 成 ， 并 且 满 足 条 件 a<b<c 
axx2+bxx2= cxx 2 


例如 ，3xx*2 + 4**2 = 9 + 16 = 25 = 5**2. 


有 且 仅 有 一 个 匀 股 数 满足 条 件 a + b + c = 1000。 
找到 这 个 匀 股 数 ， 并 计算 其 构成 元 素 的 乘积 。 


1. 创建 数组 m 和 数组 n 
m = numpy.arange (33) 
n = numpy.arange (33) 


#2. 计算 匀 股 数 的 构成 元 素 a、b 和 c 


a = numpy.subtract.outer(m ** 2, n xx 2) 
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2 * numpy.multiply.outer(m, n) 


司 numpy.add.outer(m ** 2, n ** 2) 


#3 。 找到 符合 要 求 的 索引 
idx = numpy.where((a + b+ c) == 1000) 


#4. 检查 得 到 的 结果 
numpy.testing.assert equal (a[idx]**2 + bl[lidx]**2, c[idx]**2) 
print a[lidx] * b[idx] * c[idx] 


6.3.2 ”攻略 小 结 


通用 函数 Ufuncs 不 是 一 般 意 义 上 的 函数 ,实际 上 是 具备 函数 功能 的 对 象 。 正 如 我 们 在 本 例 中 
所 见 ，Ufuncs 对 象 中 有 一 个 outer 方 法 。NumPy 中 标准 的 Ufuncs 很 多 是 用 C 语 言 实现 的 ， 因 此 其 
运算 速度 比 常 规 的 Python 代码 要 快 。Ufuncs 支 持 对 元 素 的 逐个 处 理 和 类 型 转换 ， 这 实际 上 意味 着 
能 减少 循环 语句 的 使 用 。 


6.4 用 chararray 做 字符 串 操 作 


NumPy 中 有 一 个 chararray 对 象 ， 可 以 专门 用 来 存放 字符 串 。chararray 是 ndarray 的 子 
类 , 具有 专门 对 字符 串 进行 操作 的 方法 。 我 们 将 从 Python 的 官网 下 载 一 些 文本 ,并 用 chararray 
中 的 方法 对 文本 进行 处 理 。 相 对 于 常规 的 NumPy 数 组 ， 使 用 chararray 的 优点 如 下 。 
D 用 索引 获取 数组 元 素 时 ， 字 符 串 中 多 余 的 空格 会 自动 删除 。 6 
口 做 比较 运算 时 ， 字 符 串 后 端的 空格 会 自动 删除 。 
口 支持 向 量化 的 字符 串 操作 ， 不 需要 使 用 循环 语句 。 


6.4.1 具体 步骤 
让 我 们 开始 创建 cnararray 数 组 。 
1. 创建 cnararray 数 组 。 
以 视图 的 方式 ， 创 建 chararray 数 组 。 


Carray = numpy.array (html) .view(numpy.chararravy) 


2. 把 TAB 字符 替换 为 空格 。 


使 用 expandtabs 子 数 , 把 TAB 字符 替换 为 空格 。 使 用 该 函数 时 , 可 以 通过 输入 参数 指定 TAB 
对 应 的 空格 数 ， 默 认 值 是 8。 


Carray = carray.expandtabs (1) 
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3. 按 行 分 割 字符 串 。 


使 用 splitlines 函数 ， 按 行 分 割 字 符 串 o 


carray = carray.splitlines() 
本 攻略 的 完整 代码 如 下 。 


import urllib2 
import numpy 
import re 


response = urllib2.urlopen('http://python.org/') 
html = response.read!() 

html = re subB(r < ?77 ?1 html} 

carray = numpy.array (html) .view (numpy.chararray) 
Carray = carray.expandtabs (1) 

carray = carray.splitlines() 

print carray 


6.4.2 ”攻略 小 结 


在 本 攻略 中 , 我 们 实际 体验 了 特殊 类 型 数组 chararray 类 的 用 法 。 该 类 提供 了 若干 向 量化 的 
字符 串 操作 方法 ， 也 提供 了 便利 的 针对 空格 的 默认 处 理 。 


6.5 创建 一 个 masked 类 型 的 数组 


Masked 类 型 的 数组 ( Masked 数 组 ) 可 用 来 屏蔽 数据 集中 的 缺失 值 和 无 效 值 。numpy.ma 模 块 
中 的 MaskedArray 类 包含 一 个 屏蔽 码 (mask ) 数组 ， 而 且 是 ngarray 的 子 类 。 在 本 攻略 中 ， 我 
们 把 图 像 Lena 作 为 数据 源 , 并 且 假设 图 像 中 的 某 些 数据 已 被 损毁 。 最 后 将 绘制 原始 图 像 、 原 始 图 
像 的 对 数值 、Masked 类 型 的 数组 及 其 对 数值 。 


6.5.1 具体 步骤 
让 我 们 开始 创建 Masked 类 型 的 数组 。 
1. 创建 屏蔽 码 数组 。 


为 了 创建 Masked 类 型 的 数组 , 需要 先 指定 一 个 屏蔽 码 数 组 随机 生成 一 个 屏蔽 码 数组 , 数组 
元 素 的 取 值 是 0 或 1 的 一 个 随机 数 。” 


@ 屏蔽 码 数 组 是 一 个 布尔 数组 ， 因 此 只 需要 生成 0 和 1 两 个 随机 数 ， 分 别 代 表 False 和 True。 一 一 译 者 注 
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random mask = numpy.random.randint 
(0, 2, size=lena.shape) 


2. 创建 Masked 类 型 的 数组 。 
使 用 上 一 步 得 到 的 屏蔽 码 数 组 ， 创 建 Masked 类 型 的 数组 。 


masked_array = numpy.ma.array 
(lena, mask=random mask) 


本 攻略 的 完整 代码 如 下 。 


import numpy 
import scipy 
import matplotlib.pyplot 


lena = scipy.misc.lenal) 
random mask = numpy.random.randint (0, 2, size=lena.shape) 


matplotlib.pyplot.subplot (221) 
matplotlib.pyplot.title("Original") 
matplotlib.pyplot.imshow (lena) 
matplotlib.pyplot.axis('off') 


masked_array = numpy.ma.array (lena, mask=random mask) 
print masked array 


matplotlib.pyplot.subplot (222) 
matplotlib.pyplot.title("Masked") 
matplotlib.pyplot.imshow (masked_array) 
matplotlib.pyplot.axis('off') 


matplotlib.pyplot.subplot (223) 
matplotlib.pyplot.title("Log") 
matplotlib.pyplot.imshow (numpy.1og (lena)) 
matplotlib.pyplot.axis('off') 


matplotlib.pyplot.subplot (224) 
matplotlib.pyplot.title("Log Masked") 
matplotlib.pyplot.imshow (numpy.1og (masked array)) 
matplotlib.pyplot.axis('off') 


matplotlib.pyplot.show!() 


最 终生 成 的 图 像 如 下 。 
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原始 图 像 数组 


原始 图 像 的 对 数值 


6.5.2 ”攻略 小 结 


我 们 把 随机 生成 的 屏蔽 码 数组 应 用 到 了 一 个 NumPy 数 组 上 。 这样 做 的 效果 是 , 如 果 某 个 数组 
元 素 在 屏蔽 码 数组 中 对 应 元 素 的 取 值 为 True, 则 该 数组 元 素 在 后 续 处 理 中 将 被 忽略 。 在 numpyma 
模块 中 ， 有 一 系列 完整 的 针对 Masked 数 组 的 操作 。 本 攻略 只 展示 了 怎样 创建 一 个 Masked 类 型 的 
数组 O 


6.6 忽略 负 值 和 极 值 


Masked 数 组 的 一 个 用 途 是 忽略 取 值 为 负数 的 数组 元 素 。 例如 , 求 取 数 组 的 对 数 时 需要 忽略 其 
中 的 负 值 。Masked 数 组 的 另 一 个 用 途 是 排除 极 值 ， 此 时 需要 给 出 极 值 的 上 下 边界 。 


在 本 攻略 中 , 我 们 将 把 Masked 数 组 的 上 述 功能 应 用 于 对 股价 数据 的 处 理 。 下 载 股价 数据 的 步 
又 在 前 面 的 章节 中 已 经 介绍 过 了 ， 此 处 不 再 更 述 。 


6.6.1 具体 步骤 
下 面 将 对 一 个 包含 负数 的 数组 取 对 数 。 
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1. 对 负数 取 对 数 。 
首先 创建 一 个 包含 3 的 倍数 的 数组 。 


triples = numpy.arange(0, lenl(close), 3) 
print "Triples", triples[:10], " 


然后 创建 一 个 全 1 数组 ， 其 大 小 和 股价 数据 数组 相同 。 


signs = numpy.ones (len(close)) 
DELNE "elo Slo [Lo0]:;., 


利用 第 2 章 中 介绍 的 索引 技巧 ， 把 signs 数 组 中 索引 值 为 3 的 倍数 的 数组 元 素 置 为 负数 。 


signs[triples] = -1 
print "Signs", signs[:10], " 


最 后 对 包含 负 值 的 股价 数据 数组 取 对 数 。 


ma_log = numpy.ma.log(close * signs) 
print "Masked logs", ma_log[:10], " 


对 于 AAPL 股 票 ， 将 有 如 下 的 打印 输出 。 


Triples [ 0369 12 15 18 21 24 27] ... 
Signs [ 1. 1. 1. 1.1.1. 1. 1. 1. 1.] ... 
Signs [-1. 1. 1. -1. 1. 1. -1. 1. 1. -1.] ... 
Masked logs [-- 5.93655586575 5.95094223368 -- 5.97468290742 
5.97510711452 -- 
6.01674381162 5.97889061623 --] ... 


2. 忽略 极 值 。 


我 们 把 比 均值 小 或 大 一 个 标准 差 以 上 的 数 定义 为 极 值 。 根 据 这 个 定义 , 可 以 使 用 如 下 代码 
蔽 极 值 。 


着 


dev = close.std() 

avg = close.mean() 

inside = numpy.ma.masked outside 
(close, avg - dev, avg + dev) 

Drint "Inside", inside[l10], ™ 


这 段 代码 会 打印 出 数组 inside 的 前 10 个 元 素 。 


Inside [-- -- -- -- -- -- 409.429675172 
410.240597855. == ==] as 


让 我 们 绘制 三 组 数据 : 原始 的 股价 数据 ; 对 股价 数据 取 对 数 ， 再 对 其 结果 进行 指数 运算 后 ， 
得 到 的 数据 ; 基于 标准 差 屏 蔽 原始 数据 中 的 极 值 后 ， 得 到 的 数据 。 最 终结 果 如 下 图 所 示 。 
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原始 的 股价 数据 


150 
700 忽略 负 值 后 的 股价 数据 


150 
屏蔽 极 值 后 的 股价 数据 


50 100 150 200 250 


本 攻略 的 完整 代码 如 下 。 


import numpy 

from matplotlib.finance import quotes historical yahoo 

from datetime import date 

import sys 

import matplotlib.pyplot 

def get_close(ticker): 
today = date.today() 
start = (today.year - 1, today.month, today.day) 
Guotes = quotes historical yahoo(ticker, start, today) 
return numpy.array ([gq[4] for gq in quotes]) 


close = get_ close(sys.argv[1]) 


triples = numpy.arange(0, len(close), 3) 
Deint. "Teiples™, triplesll:tol, Ts ™ 


signs = numpy.ones (len(close)) 
Dint Morogne"s, Sions[:10l Tae 


signs[triples] = -1 
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Belint. "Slo SignsEl:10];.. 


ma_log = numpy.ma.log(close * signs) 
print "Masked logs", ma_log[:10], " 


dev = close.std!() 

avg = close.mean() 

inside = numpy.ma.masked outside(close, avg - dev, avg + dev) 
Print "Inside", inside[:10], " 


matplotlib.pyplot.subplot(311) 
matplotlib.pyplot.title("Original") 
matplotlib.pyplot.plot (close) 


matplotlib.pyplot.subplot (312) 
matplotlib.pyplot.title("Log Masked") 


matplotlib.pyplot.plot (numpy .exp (ma_1l1og)) 


matplotlib.pyplot.subplot(313) 


matplotlib.pyplot.title("Not Extreme") 
matplotlib.pyplot.plot (inside) 


matplotlib.pyplot.show!() 


6.6.2 ”攻略 小 结 


numpy.ma 模 块 中 的 函数 用 来 屏蔽 不 合法 的 数组 元 素 。 例 如 ，1log 函 数 和 sqrt 函 数 不 允 许 使 6 
用 负 值 。 对 被 屏蔽 的 值 的 后 续 处 理 ， 有 点 像 数 据 库 和 其 他 编程 语言 中 的 NULL。 所 有 对 被 屏蔽 的 
值 的 操作 ， 其 结果 还 是 一 个 被 屏蔽 的 值 。 


6.7 用 recarray 创建 评分 表 


recarray 类 是 ndarray 的 子 类 。 可 以 像 在 数据 库 里 面 一 样 , 用 recarray 存 放 由 不 同类 型 的 
数据 构成 的 记录 。 例 如 ,可 以 用 它 来 存放 有 关 雇 员 的 记录 , 包括 薪资 等 数值 类 型 的 数据 以 及 雇员 
姓名 等 字符 串 类 型 的 数据 。 


现代 经 济 理论 告诉 我 们 , 投资 可 以 归结 为 对 风险 和 回报 的 优化 。 风 险 可 以 表示 为 对 数 收益 率 
的 标准 差 ( 更 多 有 关 算 数 收益 率 和 对 数 收 益 率 的 信息 请 见 http://en.wikipedia.org/wiki/Rate_of_ 
return#Arithmetic_and_logarithmic_return )， 而 回报 可 以 表示 为 对 数 收益 率 的 平均 值 。 我 们 可 以 提 
供 一 个 评分 , 用 相对 高 的 分 值 表 示 低 风险 和 高 回报 。 我 们 将 计算 若干 股票 的 分 值 , 并 以 表格 的 形 
式 ， 把 这 些 分 值 和 股票 代码 一 起 保存 到 一 个 NumPy recarray 对 象 中 。 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


112 第 6 章 特殊 类 型 数组 与 通用 函数 


6.7.1 具体 步骤 
我 们 将 从 创建 记录 类 型 的 数组 开始 。 
1. 创建 记录 类 型 的 数组 。 
创建 一 个 记录 类 型 的 数组 。 每 条 记录 包括 股票 代码 、 标 准 差分 值 、 均 值 分 值 和 总 评分 等 字段 。 


weights = numpy.recarray( (len(tickers),), 
dtype=[('symbol', numpy.str_, 16), 
('stdscore', float), ('mean', float), 
('score', float)]) 


2. 初始 化 分 值 。 
简单 起 见 ， 我 们 基于 对 数 收益 率 ， 通 过 一 个 循环 ， 对 分 值 进行 初始 化 。 


for i in xrange(len (tickers)): 
close = get_close(tickers[i]) 
logrets = numpy.diff 
(numpy.1log(close)) 
weights[i]['symbol'] = 
tickers[i] 
weights[i]['mean'] = 
logrets.mean() 
weights[il]l['stdscore'] = 
l/logrets.stad!() 
weights[il]l['score'] = 0 


如 你 所 见 ， 可 以 使 用 上 一 步 中 定义 的 字段 名 访问 记录 中 的 各 个 字段 。 
3. 对 分 值 进 行 归 一 化 处 理 。 


我 们 现在 已 经 获得 了 一 些 分 值 , 但 不 同类 型 的 分 值 是 不 能 直接 相互 比较 的 。 首 先 需 要 对 这 些 
分 值 进 行 归 一 化 处 理 , 然后 才能 对 其 进行 组 合 。 归 一 化 意味 着 要 确保 同类 型 的 分 值 加 起 来 等 于 1。 


for key in ['mean'，'stdscore'] : 
wsum = Weilights [kev] .sum() 
weights[key] = weights[key]/wsum 


4. 计算 总 评分 并 排序 。 


本 例 中 的 总 评分 就 是 各 个 归 一 化 处 理 后 的 单项 分 值 的 平均 值 ,依据 总 评分 对 记录 进行 排序 并 
生成 排名 表 。 


weights['score'] = (weights 
['stdscore'] + weights['mean'])/2 
weights['score'] .sort() 
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本 攻略 的 完整 代码 如 下 。 


import numpy 

from matplotlib.finance 

import quotes_ historical yahoo 
from datetime import date 


# 道琼斯 工业 指数 成 分 股 ， 股 利 收益 率 >4g 
tickers = ['MRK', 'T', 'VZ'] 


def get_ close(ticker): 
today = date.today() 
start = (today.year - 1, today.month, today.day) 


Guotes = quotes historical yahoo 
(ticker, start, today) 


return numpy.array ([q[4] for gq in quotes]) 


weights = numpy.recarray ( (len(tickers),), 
dtype=[('symbol', numpy.str_, 16), 
('stdscore', float), ('mean', float), 
(“score', float)]) 


for i in xrange(len(tickers)): 

Close = get _ close(tickers[i]) 

logrets = numpy.diff (numpy.1log(close)) 

weights[i]['symbol'] = tickers[i] 
weights[i]['mean'] = logrets.mean() 
weights[i]['stdscore'] = 1/logrets.std!() 
weights[i]['score'] = 0 
for key in ['mean', 'stdscore']: 

wsum = weights[key] .sum() 


weights[key] = welights [kev] /wsum 


weights['score'] = (weights['stdscore'] + 
weights['mean'])/2 
weights['score'] .sort!() 


for record in weights: 
print "%s,mean=%.4f,stdscore=%.4f, 
score=%.4f" % (record['symbol'], 
record['mean'], recordl[l'stdscore'], 


record['score']) 
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程序 执行 后 ， 输 出 如 下 内 容 。 


MRK,mean=0.1862,stdscore=0.2886,score=0.2374 
T,mean=0.3570,stdscore=0.3556, score=0.3563 
VZ,mean=0.4569,stdscore=0.3557,score=0.4063 


6.7.2 ”攻略 小 结 


我 们 计算 了 几 支 股票 的 分 值 ， 并 把 计算 结果 存储 到 了 一 个 NumPy recarray 对 象 中 。 
recarray 数 组 允许 我 们 把 不 同类 型 的 数据 ( 例如 本 攻略 中 的 股票 代码 和 数值 类 型 的 分 值 ) 放 在 
一 条 记录 中 。recarray 数 组 还 允许 我 们 访问 数组 成 员 的 各 个 字段 ， 例 如 arr .field。 本 攻略 介 
绍 了 recarray 数 组 的 创建 。 在 numpy.recarray 模 块 中 ,可 以 发 现 更 多 有 关 recarray 数 组 的 功能 。 
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本 章 主 要 内 容 : 


口 用 timeit 进 行 性 能 分 析 

口 用 IPython 进 行 性 能 分 析 

口 安装 line profiler 

口 用 line_ profiler 分 析 代 码 

口 用 cProfile 扩 展 模块 分 析 代 码 
口 用 IPython 进 行 调试 

口 用 pudb 进 行 调试 


7.1 引言 


调试 是 查找 并 移 除 软件 中 的 bug 的 行为 。 性 能 分 析 ( Profiling ) 是 为 软件 程序 构建 一 个 特殊 的 
配置 , 并 在 此 基础 上 收集 内 存 使 用 情况 或 时 间 复 杂 度 信息 。 性 能 分 析 与 调试 是 开发 者 日 常 工作 中 
不 可 或 缺 的 活动 。 对 于 重要 的 软件 产品 而 言 ， 尤 其 如 此 。 好 在 有 很 多 相关 的 工具 可 以 为 你 所 用 。 
本 章 将 讨论 若干 在 NumPy 用 户 中 比较 流行 的 性 能 分 析 与 调试 技术 。 


7.2 用 timeit 进行 性 能 分 析 

Python 标准 库 中 的 timeit 是 一 个 用 来 测量 代码 段 执行 时 间 的 模块 。 我 们 将 使 用 不 同 大 小 的 
Numpy 数 组 ， 测 量 其 调用 sort 函 数 时 所 要 耗费 的 时 间 。 经 典 的 快速 排序 和 归并 排序 算法 的 平均 
执行 时 间 是 O(nlogn)， 因 此 我 们 将 尝试 对 测量 结果 进行 拟 合 ， 看 其 是 否 具有 类 似 的 时 间 复杂 度 。 


7.2.1 具体 步骤 
我 们 需要 若干 用 来 排序 的 数组 。 
1. 创建 用 来 排序 的 数组 。 
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创建 若干 不 同 大 小 的 数组 ， 其 中 的 数组 元 素 都 是 随机 整数 。 
times = numpy.array([]) 


for size in sizes: 
integers = numpy.random.random integers 
(1; 10 ** 6, Size) 


2. 测量 执行 时 间 。 


为 了 测量 时 长 ， 需 要 创建 一 个 定时 器 ， 并 为 其 提供 一 个 需要 执行 的 函数 和 相关 的 引入 语句 。 
然后 执行 100 次 排序 操作 ， 得 到 总 的 排序 时 间 。 


def measure() : 
timer = timeit.Timer('dosort()', 


'from main import dosort') 
return timer.timeit (10 xx 2) 
3. 构建 测量 时 间 数 组 。 
通过 逐一 添加 测量 值 的 方式 ， 构 建 测量 时 间 数 组 。 
times = numpy.append (times, measure()) 


4. 比照 nlogn 模 型 拟 合 数据 。 


比照 nlogn 这 个 理论 模型 ， 对 测量 时 间 数 据 进行 拟 合 。 因 为 我 们 选择 的 数组 大 小 是 2 的 整数 次 
通过 改变 需 指 数 来 改变 大 小 ， 所 以 相关 的 计算 过 程 并 不 复杂 。 


厅 


fit = numpy.polyfit(sizes * powersOf2, times, 1) 
本 攻略 的 完整 代码 如 下 。 


import numpy 
import timeit 
import matplotlib.pyplot 


# 本 程序 用 来 测量 NumPy 中 Sort 函数 的 性 能 
# 并 绘制 出 数组 大 小 与 执行 时 间 的 对 应 关系 图 。 
integers = [] 
def dosort(): 
integers.sort() 


def measure(): 
timer = timeit.Timer('dosort()', 


'from main _ import dosort') 


return timer.timeit(10 ** 2) 
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powersOf2 = numpy.arange(0, 19) 
Sizes = 2 ** powersOf2 


times = numpy.array([]) 


for size in sizes: 
integers = numpy.random.random integers(1, 10 ** 6, size) 
times = numpy.append (times, measure()) 


fit = numpy.polyfit(sizes * powersOf2, times, 1) 

次 六 主 坟 世 “下 二 起 

matplotlib.pyplot.title("Sort array sizes vs execution times") 
matplotlib.pyplot.xlabel ("Size") 
matplotlib.pyplot.ylabel("(s)") 
matplotlib.pyplot.semilogx(sizes, times, 'ro') 
matplotlib.pyplot.semilogx(sizes, 

numpy.polyval (fit, sizes * powersOf2)) 


matplotlib.pyplot.show!() 


最 终 得 到 的 数组 大 小 和 执行 时 间 的 对 应 关系 图 如 下 。 


i 数组 大 小 和 执行 时 间 的 对 应 关系 
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7.2.2 ”攻略 小 结 
我 们 测量 了 NumPy 中 sort 消 数 的 平均 执行 时 间 。 本 攻略 中 用 到 了 如 下 函数 。 


函 数 功能 描述 
random_integers 给 定 取 值 区 间 和 数组 大 小 ， 创 建 一 个 随机 整数 数组 
append 向 NumPy 数 组 添加 新 元 素 


polyfit 把 输入 数据 拟 合 为 指定 阶 数 的 多 项 式 曲线 
polyval 根据 给 定 的 x 的 具体 数值 ， 计 算 并 返回 多 项 式 的 取 值 
semilogx 绘制 数据 ， 要 求 在 x 轴 采用 对 数 坐标 


7.3 用 1IPython 进行 性 能 分 析 


在 IPython 中 ， 既 可 以 用 timeit 分 析 一 小 段 代 码 的 性 能 ， 也 可 以 在 运行 脚本 的 时 候 对 整个 脚本 
进行 分 析 。 对 这 两 种 性 能 分 析 方式 ， 我 们 都 将 予以 介绍 。 


7.3.1 具体 步骤 
首先 ， 我 们 要 测量 一 个 代码 片段 的 执行 时 间 。 
1. 测量 代码 片段 的 执行 时 间 。 
以 pylab 模 式 启动 IPython。 
ipython -pylab 
创建 一 个 包含 1000 个 整数 的 数组 ， 其 取 值 范围 在 0 到 1000 之 间 。 


In [1]: a = arange(1000) 


测量 在 该 数组 中 查找 “任何 事情 的 答案 ”一 一 42 所 需要 的 时 间 。 没 错 ，42 是 “任何 事情 的 答 
案 ”"。 如 果 你 对 此 心 存疑 问 ， 请 浏览 http://en.wikipedia.org/wiki/42 _%28number%29。 


In [2]: Stimeit searchsorted(a, 42) 
100000 loops, best of 3: 7.58 us per loop 


2. 分析 一 个 脚本 的 性 能 。 


我 们 将 分 析 一 个 小 脚本 的 性 能 。 该 脚本 对 一 系列 不 同 大 小 的 、` 包 含 随机 数 的 矩阵 求 着 -NumPy 
数组 的 .I 属 性 〈 注 意 是 大 写 的 I ) 表示 数组 的 逆 矩 阵 。 


import numpy 


def invert(n): 
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a = numpy.matzIix(numpv.zandqom . 
rand(n, n)) 
return a.I 
sizes = 2 ** numpy.arange(0, 12) 
for n in sizes: 
invert (n) 


可 以 用 如 下 方式 ， 对 该 脚本 的 运行 时 间 进 行 测量 。 


In [1]: %run -七 invert matrix.py 


IPython CPU timings (estimated): 


User : 6.08 s. 
System : 0.52 s. 
Wall time: 19.26 s. 


可 以 使 用 p 选 项 对 脚本 进行 性 能 分 析 。 


In [2]: %run -p invert matrix.py 
852 function calls in 6.597 CPU seconds 
Ordered by: internal time 


ncalls tottime percall cumtime percall 


12 3.228 0.269 3.228 0.2 
24 2.967 0.124 2.967 0.124 
-spose} 
12 0.156 0.013 0.156 0.013 
objects} 
12 0.087 0.007 0.087 0.007 
12 0.069 0.006 0.069 0.006 
objects} 
12 0.025 0.002 6.304 0.525 
12 0.024 0.002 6.328 0.527 
1 0.017 0.017 6.596 6.596 
24 0.014 0.001 0.014 0.001 
12 0.009 0.001 6.580 0.548 
12 0.000 0.000 6.264 0.522 
12 0.000 0.000 0.014 0.001 
1 0.000 0.000 6.597 6.597 
36 0.000 0.000 0.000 0.000 
12 0.000 0.000 2.967 0.247 
24 0.000 0.000 0.087 0.004 
12 0.000 0.000 0.000 0.000 
24 0.000 0.000 0.000 0.000 
ndarray' objects} 
36 0.000 0.000 0.000 0.000 
36 0.000 0.000 0.000 0.000 


filename:lineno(function) 

{numpy .linalg.lapack lite.dgesv} 
{numpy.core.multiarray._ fastCopyAndTran 
{method 'rand' of 'mtrand.RandomState' 
{method 'copy' of 'numpy.ndarray'objects} 
{method 'astype' of 'numpy.ndarray' 


linalg.py:404(inv) 
defmatrix.py:808 (getI) 
invert matrix.py:1(<module>) 
{numpy.core.multiarray .zeros} 

invert matrix.py:3(invert) 
linalg.py:244(solve) 
numeric.py:1875(identity) 

{execfile} 
defmatrix.py:279( array finalize ) 
linalg.py:139(_ fastCopyAndTranspose) 
defmatrix.py:233( new ) 
linalg.py:99(_ commonType) 
{method ' array prepare _' 


of 'numpy. 


linalg.py:66( makearray) 
{numpy.core.multiarray .array} 
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12 0.000 0.000 0.000 0.000 {method 'view' of 'numpy.ndarray' objects} 
12 0.000 0.000 0.000 0.000 linalg.py:127( to native byte order) 
1 0.000 0.000 6.597 6.597 interactiveshell .py:2270(safe execfile) 


7.3.2 ”攻略 小 结 
我 们 用 性 能 分 析 工 具 对 上 述 NumPy 脚 本 的 运行 过 程 进 行 了 分 析 。 下 表 对 分 析 工 具 的 输出 项 目 
进行 了 总 结 。 


列 
ncalls 调用 次 妆 


tottime 总 的 函数 执行 时 间 


percall 单 次 调用 的 执行 时 间 ， 即 tottime/ncalls 


函数 的 累计 执行 时 间 ， 包 括 该 函数 本 身 的 执行 时 间 、 在 该 函数 内 部 调 
他 函数 花费 的 时 间 和 递归 调用 花费 的 时 间 


cumtime 


7.4 ”安装 line_profiler 


line_profiler 是 NumPy 的 一 名 开发 者 编写 的 。 该 模块 可 以 对 Python 代 码 进行 逐 行 分 析 。 本 攻略 
将 介绍 line profiler 的 基本 安装 步骤 。 


7.4.1 准备 工作 


你 也 许 需要 先 安装 setuptools , 这 在 前 面 的 攻略 中 已 经 介绍 了 。 如 有 必要 , 可 先 查 阅 后 面 的 “ 参 
考 阅读 ” 小节。 如 果 想 安装 line_profiler 最 新 的 开发 版 本 , 你 需要 使 用 Mercurial。 怎样 安装 Mercurial 
超出 了 本 书 的 讨论 范围 ， 相 关 的 安装 步 又 请 见 http:/mercurial.selenic.com/wikiDownload。 


7.4.2 ”具体 步骤 
请 选择 适合 你 的 安装 方式 。 
> 使 用 easy_install 或 pip 安 装 
使 用 如 下 两 条 命令 之 一 安装 line_profiler。 


easy_install line profiler 
pip install line profiler 


> 安装 开发 版 本 
可 以 使 用 Mercurial 签 出 (check out ) 源 代码 。 
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$ hg clone https://bitbucket .org/robertkern/line profiler 
签 出 源 代码 后 ， 用 如 下 方式 构建 并 安装 。 


$ python setup.py install 


7.4.3 ”参考 阅读 


口 1.2 节 “安装 了 ython” 


7.5 用 line_profiler 分 析 代 码 
安装 好 line profiler 后 ， 就 可 以 开始 分 析 代 码 了 。 


7.5.1 具体 步骤 
显然 ， 我 们 需要 一 些 可 供 分 析 的 代码 。 
1. 编写 可 供 分 析 的 代码 。 


我 们 将 编写 一 个 脚本 , 用 来 计算 一 系列 不 同 大 小 的 包含 随机 数 的 矩阵 的 平方 。 同 时 要 求 对 应 
的 线程 能 休眠 几 秒 钟 。 待 分 析 的 函数 需要 用 @profile 进 行 标记 。 


import numpy 
import time 


@profile 

def multiply(n): 
A = numpy.random.rand(n, n) 
time.sleep (numpy.random.randint (0, 2)) 
return numpy.matrix(A) ** 2 


for n in 2 xx numpy.arange(0, 10): 
multiply(n) 


2. 对 代码 进行 分 析 。 

使 用 line_profiler 分 析 代 码 时 ， 键 入 如 下 命令 。 
$ kernprof.py -1 -Vv mat mult.py 

Wrote profile results to mat mult.py.lprof 


Timer unit: le-06 s 


File: mat mult .py 
Function: multiply at line 4 
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Total time: 3.19654 s 


Line # Hits Time Per Hit % Time Line Contents 
4 @profile 
5 def multiply(n): 
6 10 13461 1346.1 0.4 A = numpy.random.rand(n, n) 
7 10 3000689 300068.9 93.9 time.sleep (numpy.random.randint (0, 2)) 
8 10 182386 18238.6 Se7 return numpy.matrix(A) ** 2 


7.5.2 ”攻略 小 结 


修饰 符 @profile 的 作用 是 告诉 line_profile， 哪 个 函数 需要 分 析 。 下 表 对 line_profile 的 输出 项 
目 进行 了 解释 。 


列 描 

Line # 脚本 文件 中 的 行 号 
Hits 单行 代码 的 执行 次 数 

Time 执行 单行 代码 花费 的 总 时 间 


单 次 执行 某 行 代 码 的 平均 时 间 
$ Time 执行 单行 代码 花费 的 时 间 在 所 有 行 的 总 执行 时 间 中 占 的 百分比 
Line Contents 单行 代码 的 内 容 


Per Hit 


7.6 ”用 cProfile 扩展 模块 分 析 代 码 


cProfile 是 从 Python 2.5 版 本 开始 引入 的 C 语 言 扩 展 模块 。 该 模块 可 用 来 对 代码 进行 确定 性 性 能 
分 析 ( deterministic profiling )。 确 定性 性 能 分 析 意 味 着 对 时 长 的 测量 是 精确 的 ， 没 有 采用 抽样 的 方 
式 。 与 此 形成 对 照 的 是 统计 性 能 分 析 (statistical profiling )， 其 特点 是 利用 随机 抽样 来 估算 测量 结 


果 。 我 们 将 用 cProfile 分 析 一 个 小 的 NumPy 程 序 ， 其 功能 是 对 一 个 由 随机 数 构成 的 数组 进行 转 置 。 


具体 步骤 
和 之 前 的 攻略 一 样 ， 我 们 需要 一 段 待 分 析 的 代码 。 
1. 编写 待 分 析 的 代码 。 
编写 transpose 函 数 。 该 函数 创建 一 个 由 随机 数 构 成 的 数组 并 对 其 进行 转 置 。 


def transpose(n): 
random values = numpy.random.random( (n, n)) 
return random values.T 
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2. 运行 分 析 融 。 
运行 分 析 器 时 ， 需 要 把 待 分 析 的 函数 作为 输入 参数 。 


cProfile.run('transpose(%d)' %(int(sys.argv[1]))) 
本 攻略 的 完整 代码 如 下 。 


import numpy 
import cProfile 
import sys 


def transpose(n): 
random values = numpy.random.random( (n, n)) 
return random values.T 


cProfile.run('transpose(%d)' %(int(sys.argv[1]))) 
对 于 一 个 1000 x 1000 的 数组 ， 我 们 得 到 如 下 输出 结 


4 function calls in 0.029 CPU seconds 
Ordered by: standard name 
ncalls tottime percall cumtime percall filename:lineno(function) 
1 0.001 0.001 0.029 0.029 <string>:1(<module>) 
1 0.000 0.000 0.028 0.028 cprofile transpose.py:5(transpose) 
1 0.000 0.000 0.000 0.000 {method 'disable' of '_ lsprof.Profiler' 
objects} 
1 0.028 0.028 0.028 0.028 {method 'random sample' of 'mtrand.Random 
State' objects} 


偷 出 结果 中 的 各 个 列 和 7.3 节 中 使 用 p 选 项 后 的 输出 相同 。 


7.7 用 IPython 进行 调试 


有 些 事情 没 人 愿意 做 ,调试 便 是 其 中 之 一 。 但 是 ,掌握 调试 技术 还 是 非常 有 必要 的 。 调 试 可 
能 要 耗费 数 小 时 时 间 ， 而 且 根 据 墨 菲 定 律 (Murphy’s law ), 你 真正 能 留 给 调试 的 时 间 很 可 能 会 很 
少 。 因 此 ,你 要 熟悉 自己 所 用 的 调试 工具 ,做 相关 的 事情 时 要 有 计划 、 有 条 理 。 当 你 找到 并 修复 
一 个 bug 后 ， 应 该 立即 做 一 个 测试 ， 这 样 至 少 能 避免 在 相同 的 地 方 再 经 历 一 次 痛苦 的 调试 过 程 。 
单元 测试 将 会 在 下 一 章 中 介绍 。 我 们 将 调试 下 面 这 段 有 bug 的 代码 ， 其 中 的 一 条 语句 试图 访问 一 
个 不 存在 的 数组 元 素 。 


import numpy 


a = numpy.arange(7) 
print a[8] 
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IPython 调 试 器 的 功能 和 标准 的 Python pdb 调试 器 类 似 ， 但 增加 了 TAB 键 代码 补 全 和 语法 突出 
显示 等 特性 。 


7.7.1 具体 步骤 
下 面 的 步骤 展示 了 一 个 典型 的 调试 过 程 。 
1. 在 IPython 中 运行 有 bug 的 脚本 。 


开启 一 个 IPython shell。 用 如 下 命令 在 IPython 中 运行 有 bug 的 脚本 。 


In [1] : %run buggy .pyY 


IndexError Traceback (most recent call last) 
。../Ssite-packages/IPython/utils/py3compat .pyc in execfile(fname,*where) 
173 else: 
174 filename = fname 
--> 175 _ builtin .execfile(filename, *where) 


.../buggy.py in <module>() 
2 
3 a = numpy.arange(7) 
----> 4 print a[8] 


IndexError: index out of bounds 
2. 启动 调试 需 。 
既然 程序 已 经 崩溃 ， 我 们 可 以 启动 调试 器 了 。 错 误 所 在 的 行 会 被 自动 设置 一 个 断 点 。 
In [2]: %debug 
> .../buggy.py(4)<module>() 
2 


3 a = numpy.arange(7) 
----> 4 print a[8] 


3. 列 出 代码 。 
可 以 使 用 list (或 1 ) 命令 列 出 代码 。 
ipdb> list 

1 import numpy 

2 


3 a = numpy.arange(7) 
----> 4 print a[8] 


4. 在 当前 行 评估 代码 。 
我 们 可 以 在 当前 行 〈 即 调试 器 当前 指向 的 行 ) 评估 或 执行 任意 的 代码 。 
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ipdb> len(a) 
7 


ipdb> print a 
[012345 6] 


5. 查看 调用 栈 。 
调用 栈 包 含 了 正在 运行 的 程序 中 处 于 活动 状态 的 函数 的 信息 。 可 以 使 用 bt 命令 查看 调用 栈 。 


ipdb> bt 
。./py3compat .py (175)execfile() 
171 if isinstance(fname, unicode): 
172 filename = fname.encode(sys.getfilesystemencoding()) 
173 else: 
174 filename = fname 
--> 175 _ builtin .execfile(filename, *where) 


> .../buggy.py(4)<module>() 
0 print al[8] 


在 调用 栈 中 返回 到 上 一 级 。 


ipdb> u 

> .../site-packages/IPython/utils/py3compat .py (175)execfile() 
173 else: 
174 filename = fname 

--> 175 _ builtin .execfile(filename, *where) 


在 调用 栈 中 进入 到 下 一 级 。 


ipdb> d 
> .../buggy.py(4)<module>() 


。 7 
3 a = numpy.arange(7) 


----> 4 Print a[8] 


7.7.2 攻略 小 结 


本 攻略 介绍 了 怎样 使 用 IPython 调 试 一 个 NumPy 程 序 。 我 们 设置 了 一 个 断 点 ， 并 且 能 定位 到 
调用 栈 中 的 适当 位 置 。 本 攻略 用 到 了 下 列 调试 命令 。 


命 令 功能 描述 


list 或 1 列 出 源 代码 


显示 调用 栈 


在 调用 栈 中 返回 到 上 一 级 
在 调用 栈 中 进入 到 下 一 级 
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7.8 用 pudb 进行 调试 


pudb 是 一 个 基于 控制 台 的 Python 调试 器 ， 安 装 过 程 简单 ， 且 支持 可 视 化 全 屏 操 作 。pudb 支 持 


方向 键 和 vi 命令 ， 也 能 在 需要 的 时 候 与 Python 集成 。 


具体 步 又 
我 们 先 介 绍 pudb 的 安装 步 又 。 
1. 安装 pudb "。 
为 了 安装 pudb ， 需 要 执行 如 下 命令 。 
sudo easy_ install pudb 


2. 启动 调试 名。 


让 我 们 对 上 一 篇 攻略 中 介绍 的 那个 有 bug 的 脚本 进行 调试 。 使 用 如 下 命令 启动 调试 器 。 


python -m pudb buggy.py 


pudb 调 试 器 用 户 界面 的 屏幕 截图 如 下 。 


PuDB 2012.3 - ?:help ni:next Ss:step into b:breakpoint 
o:output t:run to cursor !:python shell 
import numpy Variables: 


numpy: <module “num 
> qa = numpy.arange(7) py' from '/Librar 
print a[8] Stack: 
Breakpoints: 


用 户主 界面 的 上 方 显示 的 是 最 重要 的 调试 命令 ,我们 还 能 在 界面 中 看 到 被 调试 的 代码 


ZK 是- 
\、 分 里 、 


栈 和 已 定义 的 断 点 。 键入 q 可 以 退出 大 多 数 的 菜单 。 键 入 n 可 以 使 调试 涡 移 到 下 一 行 。 我 们 也 可 以 
用 方向 键 或 vi 编辑 顺风 格 的 j 键 和 k 键 , 把 光标 移动 到 适当 位 置 并 执行 特定 的 操作 , 例如 通过 键入 b 


设置 断 点 。 


Q@ pudb 目 前 不 直接 支持 Windows 平 台 , 但 可 以 通过 Cygwin 使 用 它 。 一 一 译 者 注 
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质量 保证 


本 章 主要 内 容 : 


口 安装 Pyflakes 

口 用 Pyflakes 进 行 静态 分 析 
口 用 Pylint 分 析 代 码 

口 用 Pychecker 进 行 静 态 分 析 
口 用 docstrings 测 试 代码 

口 编写 单元 测试 

口 用 模拟 对 象 测试 代码 

口 基于 BDD 方 式 的 测试 


8.1 引言 


与 人 们 普遍 的 看 法 相反 , 质量 保证 关注 的 主要 是 如 何 防 止 出 现 bug, 而 不 是 查找 bug。 我 们 将 讨 
论 两 种 方法 ,用 来 改善 代码 质量 ,从 而 防止 问题 出 现 。 在 本 章 的 第 一 部 分 , 我 们 将 对 已 经 存在 的 代 
码 进行 静态 分 析 。 在 第 二 部 分 ， 我 们 将 介绍 单元 测试 ， 包 括 对 模拟 对 象 和 行为 驱动 开发 (BDD ) 


的 介绍 。 


8.2 安装 Pyflakes CE 


Pyflakes 是 Python 的 一 个 代码 分 析 包 ， 可 用 来 分 析 代 码 ， 发 现 各 种 潜在 的 问题 ， 例 如 : 


口 引入 但 没有 用 到 的 模块 
口 没有 用 到 的 变量 


8.2.1 准备 工作 


如 有 必要 ， 请 先 安装 pip 或 easy install。 
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8.2.2 具体 步骤 
从 下 列 安装 方式 中 选择 其 一 ， 完 成 Pyflakes 的 安装 。 
> 使 用 pip 安 装 
使 用 pip 命 令 安装 Pyflakes。 
sudo pip install pyflakes 


> 使 用 easy_install 安 装 


使 用 easy_install 命 令 安 装 Pyflakes。 
sudo easy_install pyflakes 


> 在 Linux 中 安装 


Linux 中 有 同名 的 Pyflakes 安 装 包 。 例 如 ， 在 Red Hat Linux 中 用 如 下 命令 安装 。 


sudo yum install pyflakes 


在 Debian/Ubuntu 中 的 安装 命令 是 : 


sudo apt-get install pyflakes 


8.3 用 Pyflakes 进行 静态 分 析 

我 们 将 对 NumPy 代 码 库 中 的 部 分 代码 进行 静态 分 析 。 为 此 我 们 需要 先 用 Git 从 代码 库 中 签 出 
(check out ) 代码 ， 然 后 用 Pyflakes 对 其 中 的 部 分 代码 进行 静态 分 析 。 
8.3.1 具体 步骤 

1. 签 出 代码 。 


为 了 签 出 NumPy 代 码 ， 我 们 需要 用 到 Git。 怎 样 安装 Git 不 在 本 书 的 讨论 范围 之 内 。 用 来 从 代 
码 库 中 提取 代码 的 Git 命 令 如 下 。 


git clone git://github.com/numpy/numpy .git numpy 

也 可 以 选择 从 网 址 https://github.com/numpy/numpy 下 载 zip 格 式 的 源 代码 。 

2. 对 代码 进行 分 析 。 

完成 上 一 步骤 后 ,我 们 应 该 已 经 创建 了 一 个 humpy 目 录 ， 里面 包括 了 全 部 的 NumPy 代 码 。 进 
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入 该 目录 ， 然 后 运行 如 下 命令 。 


$ pyflakes *.py 

pavement .py:71: redefinition of unused 'md5' from line 69 

pavement .py:88: redefinition of unused 'GIT REVISION' from line 86 
pavement .py:314: 'virtualenv' imported but unused 

pavement .py:315: local variable 'e' is assigned to but never used 
pavement .py:380: local variable 'sdir' is assigned to but never used 
pavement .py:381: local variable 'bdir' is assigned to but never used 
pavement .py:536: local variable 'st' is assigned to but never used 
Setup.py:21: 're' imported but unused 

setup.py:27: redefinition of unused 'builtins' from line 25 
setup.py:124: redefinition of unused 'GIT REVISION' from line 118 
setupegg .py:17: 'setup' imported but unused 

setupscons.py:61: 'numpy' imported but unused 

setupscons.py:64: 'numscons' imported but unused 

Setupsconsegg .py:6: 'setup' imported but unused 


上 述 命令 对 当前 目录 下 所 有 的 Python 脚本 进行 了 分 析 ， 分 析 其 代码 风格 ， 检 查 其 违反 PEP-8 
码 规范 的 地 方 。 你 也 可 以 选择 只 对 单个 文件 进行 分 析 。 


激 


8.3.2 ”攻略 小 结 


如 你 所 见 , 用 Pyflakes 分 析 代 人 码 风 格 和 寻找 违反 PEP-8 编 码 规范 的 地 方 是 相当 简单 的 。 Pyflakes 
的 另 一 优势 是 分 析 速 度 快 ， 但 它 能 报告 的 错误 类 型 是 相当 有 限 的 。 


8.4 用 Pylint 分 析 代 码 


Pylint 是 另 一 个 开源 的 静态 代码 分 析 器 ， 最 初 由 Logilab 开 发 。Pylint 比 Pyflakes 复 杂 ， 且 人 允许 
用 户 做 更 多 的 定制 ， 但 分 析 速 度 比 Pyflakes 慢 。 更 多 相关 信息 请 见 http://www.logilab.org/ 
card/pylint manual。 


在 本 攻略 中 ， 我 们 还 是 需要 先 从 Git 版 本 库 下 载 NumPy 人 代码。 简明 起 见 ， 此 处 省 略 对 该 步 又 


的 介绍 。 


8.4.1 准备 工作 
你 可 以 选择 从 源 代 码 安装 Pylint ， 但 各 种 依赖 关系 处 理 起 来 比较 麻烦 ， 因 此 最 好 选择 用 


easy_install 或 pp 安装， 安装 命令 如 下 。 


easy_install pylint 
sudo pip install pylint 
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8.4.2 ”具体 步骤 


我 们 还 是 选择 对 NumPy 代 码 库 的 根 目 录 中 的 文件 进行 分 析 。 和 用 Pyflakes 分 析 相 比 , 我们 
得 到 的 输出 信息 要 多 很 多 。 因 为 Pylint 打 印 出 了 太 多 文本 信息 ， 所 以 这 里 只 列 出 其 中 的 一 小 


部 分 。 


$ pylint * .DY 

No config file found, using default configuration 
尖 炎 淡淡 火炎 炎炎 火炎 火炎 类 Module pavement 

C: 60: Line too long (81/80) 

C:139: Line too long (81/80) 


W: 50: TODO 

W:168: XXX: find out which env variable is necessary to avoid the 
pb with python 

71: Reimport 'md5' (imported line 143) 

73: Unable to import 'paver' 

74: Unable to import 'paver.easy' 

: 79: Invalid name "setup py" (should match (([A-Z ] [A-2Z0- 
_]*)|(  .* ))s$) 

86: Unable to import 'numpy.version' 


NDS 


可 


E: 86: No name 'version' in module ‘'numpy' 
C:149: Operator not followed by a space 
if sys.platform =="darwin": 
人 人 
C:202:prepare nsis script: Missing docstring 
W:228:bdist superpack: Redefining name 'options' from outer scope 
(line 74) 
C:231:bdist superpack.copy bdist: Missing docstring 
W:275:bdist wininst nosse: Redefining name 'options' from outer 
scope (line 74) 


8.4.3 攻略 小 结 


Pylint 默 认输 出 纯 文本 的 分 析 结 果 ， 但 如 有 需要 ， 可 以 指定 其 输出 HTML 格 式 的 信息 。 分 析 


结果 是 一 条 条 的 消息 ， 消 息 的 格式 如 下 。 
MESSRGE_TYPE: LINE NUM: [OBJECT :] MESSAGE 
消息 类 型 有 以 下 几 种 。 

口 [R] 重 构 类 型 ， 建 议 进 行 重 构 。 
C 


口 [c] 惯例 类 型 ， 违 反 了 代码 风格 。 
口 [w] 警告 类 型 ， 针 对 小 问题 的 警告 消息 。 
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口 [E] 错误 类 型 ， 错 误 或 潜在 的 bug。 
口 [F] 致命 错误 类 型 ， 发 生 了 致命 错误 ， 因 此 不 能 进行 进一步 的 分 析 。 


8.4.4 ”参考 阅读 


口 8.3 节 “用 Pyflakes 进 行 静态 分 析 ” 


8.5 用 Pychecker 进行 静态 分 析 


Pychecker 是 一 个 老牌 的 静态 分 析 工 具 。 虽 然 它 现在 的 开发 状态 不 太 活跃 ， 但 还 是 值得 我 们 了 
解 的 。 截 止 到 编写 本 书 的 时 候 ， 最 新 的 版 本 号 是 0.8.19， 最 近 的 更 新 时 间 是 2011 年 。Pychecker 试 图 
引入 每 个 模块 ,并 对 其 进行 处 理 。 通 过 对 代码 进行 分 析 ， 可 以 发 现 各 种 问题 , 例如 , 传递 的 参数 个 
数 不 正 确 ， 不 正确 的 字符 串 格 式 ， 使 用 了 不 存在 的 方法 ， 等 等 。 本 攻略 将 用 Pychecker 分 析 代 码 。 


> 从 源 代码 压缩 文件 安装 

从 http://pychecker.sourceforge.net/ 人 下载 tar.gz 格 式 的 源 代码 压缩 文件 。 解压 缩 后 执行 如 下 命令 。 
python setup.py install 

> 使 用 pip 安 装 

我 们 也 可 以 选择 用 pip 安 装 Pychecker。 


sudo pip install http://sourceforge.net/projects/pychecker/files/ 
pychecker/0.8.19/pychecker-0.8.19.tar.gz/download 


> 分 析 代 码 
采用 和 前 面 几 个 攻略 类 似 的 方式 ， 对 代码 进行 分 析 。 命 令 如 下 。 
pychecker *.py 


Warnings... 


setup.py:21: Imported module (re) not used 
setup.py:27: Module (builtins) re-imported 
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8.6 用 docstrings 测试 代码 


docstrings 是 戏 人 在 Python 代码 中 的 字符 串 ,， 其 内 容 看 上 去 有 点 像 交 互 式 的 会 话 。 这 些 字符 串 
可 用 来 检验 某 些 假设 ， 或 者 仅仅 把 它们 看 作 是 一 些 范 例 代 码 。 我 们 需要 用 doctest 模 块 运行 这 些 
测试 。 

让 我 们 写 一 个 简单 的 程序 来 计算 阶乘 ， 但 该 程序 没有 覆盖 所 有 可 能 的 边界 条 件 。 也 就 是 说 ， 
某 些 测试 项 目 是 通 不 过 的 。 


8.6.1 具体 步骤 
1. 编写 docstring。 


编写 一 个 包含 两 个 测试 项 目的 docstring， 其 中 一 个 测试 项 目 可 以 通过 ， 另 一 个 通 不 过 。 这 个 
docstring 看 起 来 像 是 Python shell 中 的 会 话 。 


Test for the factorial of 3 that should pass . 
>>> factorial (3) 
6 


Test for the factorial of 0 that should fail. 
>>> factorial(0) 
村 


2. 编写 NumPy 代 码 。 


写 如 下 的 NumPy 代 码 。 


潍 


return numpy.arange(1, n+1) .cumprod()[-1] 


该 行 代 码 将 创建 一 个 由 顺序 加 1 的 数 构成 的 数组 ， 计 算 其 累积 连 乘 ， 并 返回 计算 结果 的 最 后 
一 个 元 素 。 我 们 有 意 让 上 述 代码 在 某 些 时 候 出 错 。 


3. 执行 测试 。 
前 面 已 经 提 到 ， 我 们 需要 使 用 doctest 模 块 执 行 测试 。 


qoctest .testmod () 
求 阶乘 和 用 docstring 做 测试 的 完整 范例 代码 如 下 。 


import numpy 
import doctest 
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def factorial (n): 
Test for the factorial of 3 that should pass. 
>>> factorial (3) 
6 


Test for the factorial of 0 that should fail. 
>>> factorial (0) 
1 


return numpy.arange(1, n+1) .cumprod()[-1] 


doctest.testmod() 


使 用 -v 选 项 可 以 获得 详细 的 输出 结果 ， 如 下 所 示 。 


python docstringtest.py -Vv 
Trying: 
factorial(3) 
Expecting: 
6 
ok 
Trying: 
factorial(0) 
Expecting: 
1 
交火 火 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 淡淡 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火 火 火 火 火 火 火 
File "docstringtest.py", line 11, in main .factorial 
Failed example: 
factorial(0) 
Exception raised: 
Traceback (most recent call last): 
File ".../doctest.py", line 1253, in _ run 
compileflags, 1) in test.globs 
File "<doctest main .factorial[1]>", line 1, in <module> 
factorial(0) 
File "docstringtest.py", line 14, in factorial 
return numpy.arange(1l, n+1) .cumprod()[-1] 
IndexError: index out of bounds 
1 items had no tests: 
_ main 


突 类 类 粹 类 尖 炎 类 类 炎 类 炊 炎 炎炎 炎炎 类 炎炎 炊 炎 类 炊 粹 类 类 粹 类 粹 粹 类 类 炎 类 类 炎 类 炊 炎 类 类 粹 类 粹 粹 类 类 粹 类 类 炎炎 粹 粹 类 炊 炎 类 炊 炎 类 炎 火炎 火炎 炎炎 类 
1 items had failures: 
1 of 2 in main .factorial 
2 tests in 2 items. 
1 passed and 1 failed. 
***Test Failed*** 1 failures. 
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8.6.2 ”攻略 小 结 


如 你 所 见 ， 我 们 没有 考虑 对 0 和 负数 求 阶乘 的 情况 。 实 际 上 ， 由 于 出 现 了 数组 为 空 的 情况 ， 
我 们 得 到 了 一 个 索引 超出 边界 (index out ofbounds ) 错误 。 当 然 这 个 错误 很 容易 修正 ， 我 们 将 在 
下 一 攻略 中 完成 此 事 。 


8.7 编写 单元 测试 

测试 驱动 开发 (TDD ) 是 本 世纪 以 来 在 软件 开发 领域 出 现 的 一 项 最 重要 的 技术 。TDD 的 一 个 
非常 引 人 注 目的 地 方 ， 是 对 单元 测试 的 几 近 狂热 的 关注 。 

单元 测试 用 来 对 一 小 段 代码 (通常 是 一 个 函数 或 方法 ) 进行 自动 化 的 测试 。Python 提 供 了 用 
于 单元 测试 的 PyUnit API。 对 于 NumPy 使 用 者 ， 还 可 以 利用 numpytesting 模 块 提供 的 各 种 便捷 函 
数 (convenience function )。 正 如 它 的 名 字 所 示 ，numpy.testing 模 块 就 是 专门 用 来 做 测试 的 。 


8.7.1 具体 步骤 
让 我 们 先 编写 一 段 代 码 ， 把 它 作为 测试 对 象 。 
1. 编写 阶乘 函数 。 

编写 如 下 的 阶乘 函数 。 


def factorial (n): 
二 在 和 0 
return 1 


TE i < 0 


raise ValueError, "Don't be so negative" 
return numpy.arange(1, n+1) .cumprod () 
计算 阶乘 的 代码 和 上 一 攻略 相同 ， 但 增加 了 对 边界 条 件 的 检查 。 
2. 编写 单元 测试 。 


下 面 将 编写 单元 测试 。 也许 你 已 经 发 现 ， 本 书 没有 多 少 和 编写 类 有 关 的 内 容 。 对 于 大 多 数 攻 
略 而 言 ， 看 似 没 有 必要 这 样 做 。 

让 我 们 做 个 改变 ,编写 一 个 类 。 该 类 将 包含 单元 测试 的 内 容 。 该 类 继承 自 unittest 模 块 中 的 
TestCase 类 ， 而 unittest 模 块 是 Python 标 准 库 的 一 个 组 成 部 分 。 我 们 用 下 列 参 数 对 阶乘 函数 的 调 
用 过 程 进行 测试 。 
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口 正 整 数 ， 所 谓 的 愉快 路 径 (happy path ) 
口 边界 条 件 0 


口 负 整 数 ， 将 引起 错误 


class FactorialTest (unittest.TestCase): 
def test_ factorial (self): 
# 对 3 的 阶乘 进行 测试 ， 应 该 能 通过 。 


self.assertEqual(6, 


factorial (3)[-1]) 


numpy.testing.assert equal (numpy.array ([1, 2, 6]), factorial(3)) 


def test_ zerol(self): 
# 对 0 的 阶乘 进行 测试 ， 应 该 能 通过 。 
self.assertEqual (1, factorial(0)) 
def test negative(self): 
# 对 负 整 数 的 阶乘 进行 测试 ， 应 该 不 能 通过 。 
# 阶 乘 函 数 会 抛 出 一 个 ValueError 类 型 的 异常 ， 
# 但 我 们 期 望 得 到 一 个 IndexError 类 型 的 异常 。 
self.assertRaises (Index 


Error, factorial(-10)) 
求 阶乘 并 对 其 进行 单元 测试 的 完整 代码 如 下 。 
import numpy 


import unittest 


def factorial (n): 
二 下 的， 二 局 
return 1 


下 0 


raise ValueError, 


"Don't be so negative" 


return numpy.arange(l1, n+1) .cumprod ( ) 
class FactorialTest (unittest.TestCase): 
def test_ factorial (self): 
# 对 3 的 阶乘 进行 测试 ， 应 该 能 通过 。 


self.assertEqual(6, 


factorial (3) [-1]) 


numpy.testing.assert equal (numpy.array ([1, 2, 6]), factorial(3)) 


def test_ zero(self): 
# 对 0 的 阶乘 进行 测试 ， 应 该 能 通过 。 
self.assertEqual (1, factorial(0)) 
def test negative(self): 
# 对 负 整 数 的 阶乘 进行 测试 ， 应 该 不 能 通过 。 


# 阶 乘 函 数 会 抛 出 一 个 ValueErzor 类 型 的 异常 ， 但 我 们 期 望 得 到 一 个 IndqexEFrOLF 类 型 的 异常 。 
self.assertRaises (IndexError, factorial(-10)) 


的 name, SE 7 Ma 


unittest.main() 
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从 下 面 的 运行 结果 可 以 看 出 ， 对 负 整 数 求 阶乘 的 测试 没有 通 


央 


0o 


Traceback (most recent call last): 
File "unit test.py", line 26, in test negative 
self.assertRaises (IndexError, factorial(-10)) 
File "unit test.py", line 9, in factorial 
raise ValueError, "Don't be so negative" 
ValueError: Don't be so negative 


Ran 3 tests in 0.001s 


FAILED (errors=1) 


8.7.2 ”攻略 小 结 


我 们 介绍 了 怎样 使 用 Python 标准 库 中 的 unittest 模 块 实现 简单 的 单元 测试 。 我 们 编写 了 一 个 测 
试 类 ， 该 类 继承 自 unittest 模 块 中 的 restcase 类 。 如 下 的 函数 被 用 来 做 各 种 测试 。 


函 数 功能 描述 


numpy .testing.assert_equal 测试 两 个 NumPy 数 组 是 否 相 等 


unittest.assertEqual 测试 两 个 值 是 否 相 等 


unittest.assertRaises 测试 是 否 有 某 个 异常 被 抛 出 
NumPy 的 testing 包 中 包括 了 否 干 测试 函数 ， 我 们 应 该 了 解 其 功能 。 
函 数 功能 描述 


assert_almost_equal 0 果 两 个 数 不 能 在 给 定 精度 的 条 件 下 近似 相等 ， 则 引发 一 个 异常 


assert_approx_equal 0 果 两 个 数 不 能 在 给 定 有 效 数字 位 数 的 条 件 下 近似 相等 ， 则 引发 一 


A 
异常 


assert_array_almost_equal ”如 果 两 个 数组 不 能 在 给 定 精 度 的 条 件 下 近似 相等 ， 则 引发 一 个 异常 
assert_array_equal [0 果 两 个 数组 不 相等 ， 则 引发 一 个 异常 

assert_array_less [0 果 两 个 数组 的 形状 不 同 ， 或 者 不 满足 “第 一 个 数组 中 的 每 个 元 素 
币 比 第 二 个 数组 中 的 对 应 元 素 小 ”， 则 引发 一 个 异常 

用 规定 的 参数 调用 一 个 callable 对 象 时 ,如果 没有 引发 指定 类 型 的 
异常 ， 就 认为 测试 没 通过 

assert_warns 如 果 指 定 类 型 的 警告 没有 被 抛 出 ， 就 认为 测试 没 通 过 


assert_raises 


assert_string_equal 断言 两 个 字符 串 相 等 
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8.8 用 模拟 对 象 测试 代码 


模拟 对 象 ( mock ) 是 真实 对 象 的 替代 物 ， 用 来 测试 真实 对 象 的 部 分 行为 。 如 果 你 看 过 电影 
《外 星人 入 侵 》( Body Snatchers )， 应 该 已 经 对 模拟 对 象 有 基本 的 了 解 了 。 一 般 来 说 ， 只 有 在 不 方 
便 创建 真实 对 象 ( 例如 数据 库 连 接 ) 时 , 或 者 对 真实 对 象 的 测试 会 产生 不 希望 有 的 副作用 时 , 才 
需要 用 到 模拟 对 象 。 例 如 ， 我 们 可 能 不 希望 在 测试 过 程 中 ， 把 数据 写 入 到 文件 系统 或 数据 库 中 。 
在 本 攻略 中 , 我 们 将 测试 一 个 核反应 堆 一 一 当然 不 是 真 的 , 它 只 是 一 个 类 。 这 个 核反应 堆 类 


可 以 做 阶乘 的 计算 。 假设 求 阶乘 会 引起 一 系列 的 反应 , 导致 发 生 核 灾难 的 后 果 。 我 们 将 使 用 mock 
包 ， 用 一 个 模拟 对 象 来 模拟 阶乘 计算 。 


8.8.1 具体 步骤 
首先 我 们 将 安装 mock 包 ， 然 后 创建 一 个 模拟 对 象 并 用 它 来 测试 一 段 代 码 。 


1. 安装 mock。 

为 了 安装 mock 包 ， 请 执行 如 下 的 命令 。 
sudo easy_install mock 

2. 创建 一 个 模拟 对 象 。 


核反应 堆 类 有 一 个 ao_work 方 法 , 该 方法 会 调用 危险 的 factorial 方 法 。 我 们 希望 用 模拟 对 
象 替 代 factorial 方 法 。 用 如 下 方式 创建 模拟 对 象 。 


reactor .factorial = MagicMock (return Value=6) 

这 将 确保 模拟 对 象 被 调用 后 ， 其 返回 值 是 6。 

3. 断言 行为 。 

我 们 可 以 用 若干 种 方法 ,检查 模拟 对 象 的 行为 ， 进 而 测试 真实 对 象 的 行为 。 例 如 ,我们 可 以 
断言 ， 我 们 用 正确 的 参数 调用 了 潜在 的 有 爆炸 危险 的 factorial 方 法 ， 具 体 如 下 所 示 。 


reactor.factorial.assert called with(3, "mocked") 


使 用 了 模拟 对 象 的 完整 的 测试 代码 如 下 。 


from mock import MagicMock 
import numpy 
import unittest 


class NuclearReactor(): 
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def 工 ni 世人 (SELLE)， nm) 
self.n = n 


def do_ work(self, msg): 
print "Working" 


return self.factorial(self.n, msg) 


def factoriall(self, n, msg): 
print msg 


TE 0 
return 1 


TE Ty < Os 
raise ValueError, "Core meltdown" 


return numpy.arange(l1, n+1) .cumprod () 


class NuclearReactorTest (unittest.TestCase): 
def test_called(self): 
reactor = NuclearReactor (3) 
reactor.factorial = MagicMock (return value=6) 
result = reactor.do_ work ("mocked") 
self.assertEqual(6, result) 
reactor.factorial.assert_called with(3, "mocked") 


def test_ unmocked (self): 
reactor = NuclearReactor (3) 
reactor.factorial(3, "unmocked") 
numpy.testing.assert_ raises (ValueError) 


让 name = "Maln 
unittest.main() 


我 们 向 factorial 方 法 传递 了 一 个 字符 串 ， 目 的 是 说 明 模拟 对 象 并 不 执行 真实 对 象 中 的 代 
码 。 单 元 测试 的 作用 和 上 一 攻略 中 介绍 的 相同 。 第 二 个 测试 没有 对 核反应 堆 类 做 任何 测试 ， 只 是 
为 了 演示 不 使 用 模拟 对 象 而 直接 执行 真实 代码 的 情况 。 


测试 后 的 输出 结果 如 下 。 


Working 
.unmocked 


Ran 2 tests in 0.000s 


OK 
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8.8.2 攻略 小 结 


模拟 对 象 不 具有 任何 真实 的 行为 。 他 们 就 像 是 伪装 成 人 类 的 外 星人 , 但 还 达 不 到 外 星人 的 智 
茵 程度。 正如 外 星人 不 能 说 出 他 所 替换 的 真实 人 的 生日 一 样 , 我 们 需要 对 模拟 对 象 进行 设置 , 使 
其 能 以 适当 的 方式 作出 反应 。 例 如 ， 本 例 中 的 模拟 对 象 返回 6。 我 们 可 以 记录 模拟 对 象 的 调用 情 
况 一 一 被 调用 了 多 少 次 ， 用 的 什么 参数 。 


8.9 基于 BDD 方式 的 测试 


行为 驱动 开发 (BDD ) 是 另 一 个 你 可 能 已 经 碰 到 过 的 流行 词汇 。 使 用 BDD 时 ， 我 们 首先 需 
要 依据 某 些 约定 和 规则 , 用 英语 描述 被 测 系统 的 预期 行为 。 在 本 攻略 中 , 我们 将 看 到 此 类 约定 的 
一 个 例子 。 


BDD 方 式 背 后 隐藏 的 想法 是 , 让 不 会 编程 的 人 , 能 够 以 某 种 方式 , 编写 测试 代码 的 主体 部 分 。 
这 些 人 可 以 编写 功能 点 〈feature )， 即 包括 若干 步骤 的 语句 。 每 个 步骤 差不多 都 可 以 与 我 们 编写 
的 单元 测试 中 的 内 容 〈 例 如 用 NumPy 编 写 的 测试 语句 ) 对 应 。 目 前 存在 很 多 Python 的 BDD 框 架 。 
本 攻略 将 使 用 Lettuce 框 架 测试 阶乘 函数 。 


8.9.1 具体 步骤 
下 面 将 介绍 怎样 安装 Lettuce、 建 立 测试 环境 和 编写 测试 文档 。 
1. 安装 Lettuce。 
为 了 安装 Lettuce， 请 运行 下 列 两 条 命令 之 一 。 


pip install lettuce 
sudo easy_ install lettuce 


2. 建立 测试 环境 。 


用 Lettuce 测 试 阶 乘 函数 , 需要 按 要 求 组 织 目录 结构 。 在 tests 目 录 中 , 需要 有 一 个 features 目 录 。 | 
在 features 目 录 中 , 要 包含 一 个 factorial.feature 文 件 和 一 个 steps.py 文 件 。steps.py 文 件 的 内 容 是 功能 
描述 和 测试 代码 。 


/tests: 
features 


./tests/features: 
factorial.feature steps.py 


3. 编写 测试 文档 。 
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提炼 业务 需求 是 一 项 艰巨 的 工作 , 而 把 它们 用 适合 测试 的 方式 表达 出 来 就 更 难 了 。 幸 好 本 攻 
略 的 业务 需求 相当 简单 ， 我 们 只 需要 把 不 同 的 输入 值 和 它们 对 应 的 期 望 的 输出 值 写 出 来 就 可 以 。 


我 们 需要 定义 不 同 的 场景 (scenario )， 每 个 场景 包括 Given 、When 和 Then 三 个 不 同类 型 的 区 
段 。 每 种 类 型 的 区 段 对 应 不 同 的 测试 步 又 。 我 们 为 阶乘 功能 点 定义 了 下 列 三 个 场景 。 


Feature: Compute factorial 


Scenario: Factorial of 


0 


Given I have the number 0 


When I compute its 


factorial 


Then I see the number 1 


Scenario: Factorial of 


1 


Given I have the number 1 


When I compute its 


factorial 


Then I see the number 1 


Scenario: Factorial of 


3 


Given I have the number 3 


When I compute its 


factorial 


Then I see the number 1, 2, 6 


4. 定义 步 又 。 


与 上 述 场景 中 描述 的 测试 步骤 对 应 , 我 们 将 定义 若干 方法 。 需要 特别 注意 用 来 标记 方法 的 文 
本 , 其 内 容 和 场景 描述 中 的 区 段 内 容 是 匹配 的 。 可 以 用 正则 表达 式 从 区 段 内 容 中 提取 出 需要 的 输 


和 参数。 


在 前 面 两 个 场景 中 ,我们 需要 匹配 数字 。 在 最 后 一 个 场景 中 ,我 们 需要 匹配 字符 串 。NumPy 
中 的 fromstring 函 数 用 来 从 字符 串 创 建 一 个 NumPy 数 组 ， 该 字符 串 由 逗号 分 隔 的 整数 构成 。 下 
面 的 代码 用 来 对 上 述 场景 进行 测试 。 


from lettuce import * 
import numpy 


@step('I have the number 
def have_ the number (step, 


(\d+)') 
number): 


world.number = int (number) 


@step('I compute its factorial') 


def compute_its_factorial 


(step): 


world.number = factorial (world.number) 


@step('I see the number (. 


def check number (step, expected): 


expected = numpy.fromstring (expected, dtype=int, sep=',') 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


8.9 基于 BDD 方式 的 测试 141 


numpy.testing.assert equal (world.number, expected, \ 
"Got %s" % world.number) 


def factorial (n): 
让- 流 : 三 二 


return 1 


Ei 0 


raise ValueError， "Core meltdown" 
return numpy.arange(1, n+1) .cumprod ( ) 
ey a 
5. 执行 测试 。 


执行 测试 时 ， 首 先进 入 tests 目 录 ， 然 后 键入 如 下 命令 。 


$ lettuce 
Feature: Compute factorial # \features\factorial.feature:1 

Scenario: Factorial of 0 \features\factorial.feature:3 
Given I have the number 0 


When I compute its factorial 
Then I see the number 1 


\features\steps.py:5 
\features\steps.py:9 
\features\steps.py:13 


间 间 砷 夺 


Scenario: Factorial of 1 \features\factorial.feature:8 
Given I have the number 1 
When I compute its factorial 


Then I see the number 1 


\features\steps.py:5 
\features\steps.py:9 
\features\steps.py:13 


半音 砷 夺 


\features\factorial.feature:13 
\features\steps.py:5 
\features\steps.py:9 
\features\steps.py:13 


Scenario: Factorial of 3 
Given I have the number 3 
When I compute its factorial 
Then I see the number 1, 2, 6 


1 feature (1 passed) 

3 scenarios (3 passed) 

9 steps (9 passed) el 
8.9.2 ”攻略 小 结 


我 们 定义 了 一 个 包含 三 个 场景 的 功能 点 ， 每 个 场景 都 包括 若干 步骤 。 我 们 使 用 NumPytesting 
模块 中 的 函数 对 相关 的 步骤 进行 了 测试 ， 并 使 用 fromstring 国 数 利 用 特定 格式 的 字符 串 创建 了 
一 个 NumPy 数 组 。 
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用 Cython 为 代码 提速 


本 章 主 要 内 容 : 


口 安装 Cython 

口 构建 Hello World 程 序 

口 在 Cython 中 使 用 NumPy 
口 调用 C 语 言 函数 

口 分 析 Cython 代 码 

口 用 Cython 求 阶乘 的 近似 值 


9.1 引言 


Cython 是 一 种 基于 Python 的 比较 新 的 编程 语言 。 它 和 Python 的 不 同 之 处 在 于 我 们 可 以 选择 声 
明 静 态 类 型 。 很 多 编程 语言 , 例如 C 语 言 ， 是 静态 类 型 的 语言 , 这 意味 着 我 们 需要 指明 变量 类 型 、 
函数 参数 和 返回 类 型 。 此 外 ，C 是 编译 型 语言 ， 而 Python 是 解释 型 语言 。 按 照 经 验 规则 ， 我 们 可 
以 这 样 说 : C 语 言 比 较 快 ， 而 Python 比较 灵活 。 我 们 可 以 从 Cython 代 码 生 成 C 或 C++ 代码 ， 之 后 还 
可 以 把 生成 的 代码 进一步 编译 为 Python 的 扩展 模块 。 


在 本 章 中 , 我 们 将 学 习 和 Cython 有 关 的 内 容 。 我 们 将 编写 一 些 简单 的 、 能 和 NumPy 协 同 工 作 
的 Cython 程 序 。 此 外 还 将 对 Cython 代 码 进行 性 能 分 析 。 


9.2 ”安装 Cython 


使 用 Cython 之 前 , 需要 先 安 装 Cython。Enthought 和 Sage 的 发 行 版 本 中 已 经 包括 了 Cython, 更 
多 的 相关 信息 请 见 http:/www.enthought.com/products/epd.php 和 http://sagemath.org/。 这 里 将 不 会 讨 
论 怎样 安装 这 些 发 行 版 。 此 外 ， 我 们 显然 还 需要 一 个 C 编 译 器 ， 由 Cython 生 成 C 语 言 代 码 后 需要 
用 它 进 行 编译 。 在 某 些 操作 系统 上 ( 例如 Linux )，C 编 译 器 已 经 预先 安装 好 了 。 本 攻略 假设 你 已 
经 安装 好 了 C 编 译 需 。 
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具体 步骤 


从 下 列 安 装 方式 中 选择 其 一 ， 完 成 Cython 的 安装 。 


> 从 压缩 文件 安装 

执行 如 下 的 步 又， 从 压缩 文件 安装 Cython。 

(1) 从 http://cython.org/#download 下 载 源 代码 压缩 文件 。 

(2) 对 下 载 的 文件 解压 缩 。 

(3) 使 用 cd 命令 进入 源 代码 所 在 的 目录 。 

(4) 执行 如 下 命令 。 

python setup.py install 

> 使 用 easy_install 或 pip 安 装 

可 以 使 用 easy_install cython 或 sudo pip install cython， 从 PyPI 资 源 库 安装 Cython。 
> 用 Windows 版 本 的 安装 文件 安装 


在 Windows 平 台 上 安装 Cython 时 ,可 以 访问 http://www.lfd.uci.edu/~gohlke/pythonlibs/#cython,， 
使 用 非 官方 的 Windows 版 本 的 安装 文件 。 


9.3 构建 Hello World 程序 


依循 编程 语言 传统 的 介绍 方式 ,我 们 的 Cython 之 旅 将 从 一 个 Hello World 范 例 程序 开始 。 不 同 
于 Python ， 我 们 需要 对 Cython 代 码 进 行 编译 。 我 们 将 首先 编写 一 个 .pyx 文 件 ， 再 由 该 文件 生成 C 
语言 代码 ， 然 后 对 .c 文 件 进行 编译 ， 最 后 把 编译 后 生成 的 模块 引入 Python 程序 。 


9.3.1 具体 步骤 


下 面 将 具体 介绍 怎样 构建 一 个 Cython 版 本 的 Hello World 程 序 。 


1. 编写 hello.pyx 文 件 。 


首先 需要 编写 一 段 相当 简单 的 代码 ， 用 来 打印 “Hello World”。 这 是 一 段 标准 的 Python 代 码 ， 
是 其 所 在 文件 的 扩展 名 是 pyx。 


SS 
~/ 


def say_hello(): 
print "Hello World!" 
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2. 编写 distutils setup.py 脚 本 。 


需要 创建 一 个 名 为 setup.py 的 文件 ， 用 来 帮助 我 们 构建 Cython 代 码 。 


from distutils.core import setup 


from distutils.extension import Extension 
from Cython.Distutils import build ext 


ext_modules = [Extension("hello", ["hello.pyx"])] 


Setup ( 
name = 'Hello world app'， 
cmdclass = {'build ext': build ext}, 
ext_modules = ext_modules 


) 

如 你 所 见 ， 我 们 需要 在 这 个 文件 中 指明 上 一 步骤 编写 的 Cython 程 序 名 称 并 给 应 用 一 个 名 字 。 
3. 构建 扩展 模块 。 

使 用 如 下 命令 构建 。 


Python setup.py build_ext --inplace 


这 将 首先 生成 C 语 言 代码 ， 再 针对 所 在 平台 对 其 进行 编译 后 ， 产 生 如 下 输出 结果 。 


running buil1dq_ext 

cythoning hello.pyx to hello.c 
building 'hello' extension 
creating build 


现在 可 以 使 用 如 下 语句 ， 在 Python 程序 中 引入 刚刚 生成 的 模块 。 


from hello import say_hello 


9.3.2 ”攻略 小 结 


在 本 攻略 中 , 我们 介绍 了 一 个 传统 的 Hello World 范 例 。Cython 是 编译 型 的 语言 ,需要 对 Cython 
代码 进行 编译 。 我 们 编写 了 一 个 .pyx 文 件 ， 其 中 包含 了 打印 Hello World 的 相关 代码 。 我 们 也 编写 
了 一 个 setup.py 文 件 ， 用 来 生成 和 构建 C 语 言 程序 。 


9.4 在 Cython 中 使 用 NumPy 


在 Cython 中 使 用 NumPy 代 码 和 使 用 Python 代 码 的 方法 是 一 样 的 。 我 们 将 介绍 一 个 例子 ， 用 来 
分 析 一 支 股 票 的 上 涨 日 所 占 的 比例 。 上 涨 日 的 基本 特征 就 是 当日 股票 的 收盘 价 高 于 前 一 交易 日 。 
我 们 将 计算 二 项 分 布 总 体 率 的 置信 区 间 (binomial proportion confidence )。 有 关 二 项 分 布 总 体 率 的 
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置信 区 间 的 更 多 信息 ， 请 参考 http:/en.wikipedia.org/wiki/Binomial proportion confidence_interval。 
这 个 置信 区 间 用 来 表征 上 涨 日 出 现 概率 的 可 信 程 度 。 


编写 一 个 .pyx 文 件 ， 其 中 包括 一 个 函数 ， 用 来 计算 上 涨 日 的 比例 值 及 其 置信 区 间 。 该 函数 首 
先 要 计算 股价 的 差 值 ， 然 后 要 对 大 于 0 的 差 值 进行 计数 并 算出 上 涨 日 的 比例 ， 最 后 要 应 用 求 置信 
区 间 的 公式 〈 详 见 上 述 维基 百科 页 面 )。 

import numpy 

def pos_confidence (numbers): 

diffs = numpy.diff (numbers) 

n = float(len(diffs)) 


p = len(diffs[diffs > 0])/n 
confidence = numpy.sgqrt(p * (1 - p)/ n) 


return (p, confidence) 
2. 编写 setup.py 文 件 。 


我 们 把 上 一 攻略 中 的 setup.py 文 件 作 为 模版 ， 在 此 基础 上 进行 修改 。 有 几 个 明显 需要 修改 的 
地 方 ， 例 如 .pyx 文 件 的 名 字 。 


from distutils.core import setup 
from distutils.extension import Extension 
from Cython.Distutils import build ext 


ext modules = [Extension("binomial proportion", ["binomial proportion.pyx"])] 


Setup ( 
name = 'Binomial proportion app'， 
cmdclass = {'build ext': build ext}, 
ext_modules = ext_modules 


) 
现在 可 以 进行 构建 了 ， 具 体 步骤 请 见 上 一 攻略 。 
3. 使 用 Cython 模 块 。 


完成 构建 后 , 把 生成 的 Cython 模 块 引入 Python 程 序 。 我 们 将 编写 一 个 用 Matplotlib 下 载 股 票 
据 的 Python 程序 ， 该 程序 在 分 析 收 盘 价 数据 时 将 用 到 confidence 函 数 。 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


146 第 9 章 用 Cython 为 代码 提速 


from matplotlib.finance import quotes historical yahoo 
from datetime import date 

import numpy 

import sys 

from binomial proportion import pos_confidence 


#1. 获取 收盘 价 数据 。 
today = date.today() 
start = (today.year - 1, today.month, today.day) 


Guotes = quotes historical yahoo(sys.argv[1], start, today) 


close = numpy.array ([q[4] for gq in quotes]) 
print pos_confidence(close) 


以 AAPL 为 命令 行 参 数 ， 程 序 运行 后 的 输出 结果 如 下 。 


(0.56746031746031744，0.031209043355655924) 


9.4.2 ”攻略 小 结 


我 们 计算 了 AAPL 股 票 上 涨 日 出 现 的 概率 及 其 对 应 的 置信 区 间 。 我 们 在 .pyx 文 件 中 使 用 了 
NumPy 代 码 。 采 用 和 上 一 攻略 相同 的 方式 ， 我 们 用 这 个 .pyx 文 件 构建 出 一 个 Cython 模 块 。 最 后 在 
Python 代码 中 引入 并 使 用 了 这 个 Cython 模 块 。 


9.5 调用 C 语言 函数 


我 们 可 以 在 Cython 中 调用 C 语 言 函 数 。 作 为 示例 ， 在 本 攻略 中 我 们 将 调用 C 语 言 的 log 函 数 。 
该 函数 只 能 对 单个 数字 进行 操作 ， 而 NumPy 中 的 10g 函 数 还 可 以 对 数组 进行 操作 。 我 们 将 计算 股 
价 的 对 数 收益 率 。 


9.5.1 具体 步骤 
从 编写 Cython 代 码 开 始 。 
1. 编写 .pyx 文 件 。 


首先 需要 从 libc 命 名 空间 引入 C 语 言 的 1og 函 数 。 然 后 通过 使 用 for 循 环 ， 把 该 函数 应 用 于 数 
组 的 各 个 元 素 。 最 后 使 用 NumPy 中 的 GaifE 函 数 ， 计 算 取 对 数 后 所 得 结果 的 一 阶 差 分 。 


from libc.math cimport log 
import numpy 


def logrets (numbers): 
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logs = [log(x) for x in numbers] 
return numpy.diff (logs) 


在 前 面 的 攻略 中 ,我 们 已 经 介绍 了 Cython 模 块 的 构建 过 程 。 我 们 只 需要 对 setup.py 文 件 稍 作 
修改 即 可 。 


2. 绘制 对 数 收 益 率 。 


用 Matplotlib 下 载 股价 数据 ,把 刚刚 生成 的 Cython 模 块 中 的 1ogrets 国 数 应 用 于 收盘 价 数据 并 
绘制 出 结果 。 


from matplotlib.finance import quotes historical yahoo 
from datetime import date 

import numpy 

import sys 

from log_returns import logrets 

import matplotlib.pyplot 


today = date.today() 
start = (today.year - 1, today.month, today.day) 


Guotes = quotes historical yahoo(sys.argv[l1], start, today) 
close = numpy.array ([gq[4] for G in quotes]) 
matplotlib.pyplot.plot (logrets (close)) 
matplotlib.pyplot.show!() 


AAPL 股 票 的 对 数 收益 率 图 示 如 下 。 
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9.5.2 ”攻略 小 结 


我 们 在 Cython 代 码 中 ， 调 用 了 C 语 言 的 1og 函 数 。 该 函数 和 NumPy 中 的 函数 一 起 用 来 计算 股 
票 的 对 数 收益 率 。 通 过 这 种 方式 ， 我 们 可 以 创建 自己 专用 的 包含 便捷 函数 的 API。 在 Cython 中 调用 
C 语 言 函数 的 好 处 是 ， 代 码 的 执行 速度 应 该 和 C 语 言 代 码 差不多 ， 而 代码 总 体 来 看 还 是 Python 代码 。 


9.6 分析 Cython 代码 


我 们 将 分 析 用 来 计算 欧 拉 常数 近似 值 的 Cython 代 码 和 NumPy 代 码 。 所 需 的 计算 公式 请 见 
http://en.wikipedia.org/wiki/E %28mathematical constant%29。 
9.6.1 具体 步骤 
下 面 介绍 怎样 分 析 Cython 代 码 。 为 此 ， 请 执行 以 下 步 又。 
> 用 NumPy 近 似 计算 e 
用 NumPy 近 似 计算 e 时 ， 需 要 执行 下 列 步骤 。 
1. 创建 一 个 由 从 1 到 n-1 的 自然 数 构成 的 数组 ( 本 例 中 n 的 默认 值 是 40 )。 
2. 计算 数组 的 累积 连 乘 ， 等 同 于 求 阶乘 。 
3. 求 取 阶 乘 的 倒数 。 
4. 应 用 上 述 维基 百科 页 面 中 的 公式 。 
最 后 要 加 上 标准 的 性 能 分 析 代 码 。 具 体 代码 如 下 。™ 
import numpy 
import cProfile 
import pstats 
def approx_e(n=40) : 
# 创建 数组 [1，2，... n-1] 


arr = numpy.arange(1, n) 


# 计算 阶乘 ， 并 把 计算 结果 转换 为 浮 点 数 。 
arr = arr.cumprod() .astype (float) 


# 取 倒 数 1/n 
arr = numpy.reciprocal (arr) 


print 1 + arr.sum() 


Q@ 这 段 代码 在 Windows 平 台 上 运行 报错 , 原因 是 , 默认 情况 下 数组 arr 的 数据 类 型 是 int32, 不 能 容纳 太 大 的 计算 结果 。 
因此 建议 创建 数组 时 ， 使 用 语句 arr = numpy.arange(1, n, dtype=numpy.uint64) 。 译 者 注 
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cProfile.runctx("approx _e()", globals(), locals(), "Profile.prof") 


s = pstats.Stats ("Profile.prof") 
s.strip dirs().sort_ stats("time") .print_stats() 


常数 e 近 似 计算 的 结果 和 性 能 分 析 的 结果 如 下 所 示 。 更 多 有 关 分 析 结 果 的 信息 ， 请 参阅 第 7 
章 的 内 容 。 


2.71828182846 


7 function calls in 0.000 CPU seconds 


Ordered by: internal time 


ncalls tottime percall cumtime percall filename:lineno (function) 


1 0.000 0.000 O000 0.000 numpy_approxe.py:5(approx_e) 

1 0.000 0.000 0.000 0.000 {method 'cumprod' of 'numpy.ndarray' objects} 

1 0.000 0.000 W000n 0.000 {numpy.core.multiarray .arange} 

1 0.000 0.000 0.000 0.000 {method 'sum' of 'numpy.ndarray' objects} 

和 0.000 0.000 0.000 0.000 {method 'astype' of 'numpy.ndarray' objects} 

1 0.000 0.000 0.000 0.000 <string>:1 (<module>) 

1 0.000 0.000 0.000 0.000 {method 'disable' of '_lsprof.Profiler' objects} 


> 用 Cython 近 似 计算 e 


和 上 述 用 NumPy 近 似 计算 e 的 过 程 一 样 ，Cython 代 码 使 用 相同 的 算法 ， 只 是 在 具体 实现 上 有 
一 些 差 别 。 和 NumpPy 相 比 ， 由 于 缺少 合适 的 便捷 函数 ， 我 们 需要 用 到 for 循 环 。 而 且 ， 我 们 需 
指明 某 些 变量 的 类 型 。.pyx 文 件 的 具体 代码 如 下 。 


def approx_el(int n=40): 
cdef double sum = 0. 
cdef double factorial = 1. 
cdef int k 
for k in xrange(1,n+1): 
factorial *= k 
sum += 1/factorial 
print 1 + sum 


下 列 Python 程 序 首先 引信 了 Cython 模 块 ， 然 后 做 了 一 些 相 关 的 性 能 分 析 。 


import pstats 
import cprofile 


import pyximport 
pyximport.install () 


import approxe 
cProfile.runctx("approxe.approx_e()", globals(), locals(), "Profile.prof") 
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S = pstats.Stats("Profile.prof") 
SBStrip dires.().. Sort. state ("time") Print statst() 


Cython 代 码 的 分 析 结 果 如 下 。 
2.71828182846 
3 function calls in 0.000 CPU seconds 
Ordered by: internal time 
ncalls tottime percall cumtime percall filename:lineno (function) 
王 0.000 0.000 0.000 0.000 {approxe.approx_e} 


王 0.000 0.000 0.000 0.000 <string>:1 (<module>) 
再 0.000 0.000 0.000 0.000 {method 'disable'of '_lsprof.Profiler' objects} 


9.6.2 ”攻略 小 结 


我 们 分 别 分 析 了 NumPy 和 Cython 代 码 。NumPy 在 执行 速度 方面 已 经 做 了 深度 优化 ，NumPy 
程序 和 Cython 程 序 都 表现 出 了 良好 的 性 能 ， 对 此 我 们 不 应 觉得 意外 。 


9.7 用 Cython 求 阶乘 的 近似 值 


本 章 的 最 后 一 个 攻略 是 用 Cython 求 阶乘 的 近似 值 。 我 们 将 使 用 两 种 求 阶乘 近似 值 的 方法 。 首 
先 使 用 的 是 斯 特 录 近似 方法 ( 详 见 http://en.wikipedia.org/wiki/Stirling%27s_approximation )， 其 计 
算 公 式 是 : 


Varn(-)" 


然后 将 使 用 Ramanujan 提 出 的 近似 计算 方法 ， 其 计算 公式 为 : 


Nn 6 1 
一 8n3 + 4n2 Sag 
V7™(o) 4/8n3 十 47 十 和 十 测 
9.7.1 具体 步骤 


下 面 将 具体 介绍 怎样 用 Cython 计 算 阶乘 的 近似 值 。 我 们 将 用 到 类 型 声明 。 你 也 许 还 记得 , 在 
Cython 中 ， 类 型 声明 是 可 选 的 。 从 理论 上 讲 ， 声明 静态 类 型 会 提高 代码 的 执行 速度 。 声 明 静 态 类 
型 也 融 来 了 编写 常规 的 Python 代码 时 可 能 没有 遇 到 过 的 有 趣 的 挑战 。 但 不 要 担心 ,我 们 将 尽量 让 
问题 简单 。 
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1. 编写 Cython 代 码 。 


我 们 将 编写 的 Cython 代 码 看 上 去 和 常规 的 Python 代码 差不多 ， 只 是 把 函数 参数 和 一 个 局 部 变 
量 声明 为 ndarray 类 型 。 为 了 使 用 静态 类 型 ， 需 要 使 用 cimport 引 入 NumPy, 并 且 在 声明 局 部 变量 


时 需要 同时 使 用 caef 关 键 字 。 


import numpy 
cimport numpy 


def ramanujan_ factorial (numpy.ndarray n): 
sqrt_pi = numpy.sqrt (numpy.pi, dtype=numpy .float64) 
cdef numpy.ndarray root = (8 * n+4) *n+1 
root 三 O00t * n+ 1/30. 
EO0t 三 开间 问世 ** (17/6) 
return sqrt pi * calc eton(n) * root 


def stirling_ factorial (numpy.ndarray n): 
return numpy.sgqrt(2 * numpy.pi * n) * calc_ eton(n) 


def calc_eton (numpy.ndarray 1n): 
return (n/numpy.e) ** n 


2. 构建 代码 。 


正如 前 面 几 个 攻略 中 介绍 过 的 ， 我 们 需要 创建 一 个 setup.py 文 件 。 在 这 个 文件 中 ， 需 要 通过 


调用 get_include 困 数 ， 把 NumPy 相 关 的 目录 包括 进来 。 修 改 之 后 的 setup.py 文 件 的 内 容 如 下 。 


from distutils.core import setup 


from distutils.extension import Extension 
from Cython.Distutils import builgd ext 
import numpy 


ext modules = [Extension("factorial", ["factorial.pyx"], include dirs = 
[numpy .get_include()])] 


Setup ( 
name = 'Factorial app'， 
cmdclass = {'build ext': build ext}, 
ext_modules = ext_ modules 


) 
3. 绘制 相对 误差 。 


相对 于 用 NumPy 的 cumproq 函 数 计算 出 来 的 阶乘 ,我们 将 分 别 计算 这 两 种 近似 计算 方法 的 相 
对 误差 ， 并 绘制 出 结果 。 


from factorial import ramanujan factorial 
from factorial import stirling factorial 
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import numpy 
import matplotlib.pyplot 


N = 50 
numbers = numpy.arangde(1，N) 
factorials = numpy.cumprod (numbers, dtype=float) 


def error (approximations): 
return (factorials - approximations)/factorials 


matplotlib.pyplot.plot(error(ramanujan factorial (numbers)), 'b-') 
matplotlib.pyplot.plot(error(stirling factorial (numbers)), 'ro') 
matplotlib.pyplot.show!() 


两 种 近似 计算 方法 的 相对 误差 图 示 如 下 。 连 续 直线 代表 Ramanujan 近 似 方法 ， 点 状 线 代表 斯 
特 灵 近似 方法 。 如 你 所 见 ，Ramanuja 近 似 方法 比 斯 特 灵 近似 方法 更 精确 。 


0.02 


9.7.2 ”攻略 小 结 
本 攻略 演示 了 怎样 在 Cython 中 使 用 静态 类 型 。 本 攻略 的 要 点 如 下 。 


口 用 cimport 引 入 C 语 言 库 
口 用 get_include 拯 数 把 指定 目录 包括 进来 
口 用 caef 关 键 字 修饰 局 部 变量 的 类 型 
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本 章 主要 内 容 : 


口 安装 scikits-learn 

口 加 载 范例 数据 集 

口 用 scikits-learn 对 道琼斯 成 分 股 做 聚 类 分 析 
口 安装 scikits-statsmodels 

口 用 scikits-statsmodels 做 正 态 性 检验 

口 安装 scikits-image 

口 检测 角 点 

口 检测 边缘 

口 安装 pandas 

口 用 pandas 估 计 股 票 收益 的 相关 性 

口 从 statsmodels 加 载 数据 到 pandqas 对 象 
口 重 采样 时 间 序 列 数据 


10.1 引言 


Scikits 包 含 若干 独立 的 小 项 目 。 它 们 和 SciPy 有 一 定 联系 ， 但 不 是 SciPy 的 组 成 部 分 。 这 些 项 
目 之 间 并 不 完全 独立 ， 它 们 都 以 Scikits 的 名 义 运 作 ， 看 上 去 有 点 像 一 个 联盟 。 在 本 章 中 ， 我 们 将 
讨论 下 列 几 个 Scikits 项 目 : 


口 scikits-leam ， 机 还 学 习 包 
口 Scikits-statsmodels ， 统 计 包 
口 scikits-image， 图 像 处 理 包 
口 pandas， 数 据 分 析 包 
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10.2 ”安装 scikits-learn 


scikits-learn 项 目 提 供 了 机 器 学 习 相关 的 API。 这 个 项 目的 文档 非常 棒 ， 这 一 点 最 让 我 喜欢 。 
可 以 用 操作 系统 自 带 的 包 管 理 器 安装 scikits-learn， 这 是 最 方便 的 安装 途径 。 但 这 种 安装 方式 是 不 
是 可 用 ， 要 看 你 用 的 什么 操作 系统 了 。 


Windows 用 户 可 以 从 scikits-learn 项 目的 官网 下 载 一 个 安装 文件 。 在 Debian 和 Ubuntu 上， 对 应 
的 包 的 名 字 是 python-sklearn。 在 MacPorts 上， 对 应 的 port 的 名 字 是 py26-scikits-learn 和 py27-scikits- 
learn, 我 们 也 可 以 选择 从 源 文件 安装 ,或 者 使 用 easy_install 安 装 。 Python(x, y)、Enthought 和 NetBSD 
等 第 三 方 的 发 行 版 中 也 包含 了 scikits-learn。 


10.2.1 准备 工作 


你 需要 提前 安装 好 SciPy 和 NumPy。 如 有 必要 ， 请 参阅 第 1 章 的 相关 内 容 。 


10.2.2 ”具体 步骤 
让 我 们 看 看 怎样 安装 scikits-learn。 
> 使 用 easy_install 或 pip 安 装 
在 命令 行 界 面 中 ， 键 入 如 下 两 条 命令 之 一 完成 安装 。 


pip install -U scikit-learn 

easy_install -U scikit-learn 

可 能 需要 在 上 述 命 令 之 前 添加 sudo, 或 者 以 管理 员 身 份 登录 ， 否则 可 能 会 因为 权限 不 够 ,不 
能 成 功 执行 安装 命令 。 


> 从 源 文件 安装 
从 https://pypi.python.org/pypi/scikit-learn/ 下 载 源 文件 ， 解 压缩 后 进入 主 目录 ， 然 后 执行 如 下 


命令 。 


python setup.py install 


GD scikits-learn 已 经 更 名 为 scikit-learn。 一 一 译 者 注 
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10.3 ”加 载 范 例 数据 集 


scikits-learn 项 目 中 包含 了 若干 数据 集 和 范例 图 像 ， 可 以 用 来 做 一 些 实验 。 本 攻略 中 , 我 们 将 
加 载 一 个 scikits-leam 发 行 版 中 的 范例 数据 集 。 该 数据 集 用 二 维 的 NumPy 数 组 保存 数据 ,其 中 还 包 
括 了 与 这 些 数据 有 关联 的 元 数据 。 


具体 步骤 
我 们 将 加 载 一 个 波士顿 房价 的 范例 数据 集 。 这 是 一 个 很 小 的 数据 集 , 所 以 ,如 果 你 正在 波 士 
顿 物色 房屋 ， 别 太 激 动 。 有 关 范 例 数据 集 的 更 多 的 介绍 请 见 http://scikit-learn.org/dev/modules/ 


classes.html#module-sklearn.datasets。 

我 们 将 查看 原始 数据 的 形状 , 以 及 其 中 的 最 大 值 和 最 小 值 。 形状 对 应 一 个 元 组 , 表示 NumPy 
数组 的 维度 信息 。 对 目标 数组 ， 我 们 也 做 相同 的 操作 。 目 标 数 组 中 包含 了 作为 学 习 目 标的 数值 。 
下 面 的 代码 实现 了 上 述 功 能 。 


from sklearn import datasets 


boston prices = datasets.1load boston() 
print "Data shape", boston prices.data.shape 
print "Data max=%s min=%s" % 
(boston_ prices.data.max(), 
boston prices.data.min()) 
print "Target shape", 
boston prices.target.shape 
print "Target max=%s min=%s" % 
(boston prices.target.max(), 
boston prices.target .min()) 


该 程序 的 输出 结果 如 下 。 


Data shape (506, 13) 
Data max=711.0 min=0.0 
Target shape (506,) 
Target max=50.0 min=5.0 


10.4 用 scikits-learn 对 道琼斯 成 分 股 做 聚 类 分 析 


聚 类 (clustering ) 代表 一 类 机 带 学 习 算 法 ,用 来 基于 相似 度 对 研究 对 象 分 组 。 本 例 将 使 用 道 
琼斯 工业 指数 成 分 股 的 对 数 收益 率 数据 进行 聚 类 分 析 。 本 攻略 中 的 大 多 数 步 又 在 之 前 的 章节 中 已 


有 介绍 。 
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10.4.1 具体 步骤 
首先 需要 从 雅虎 财经 频道 下 载 这 些 股票 的 盘 后 数据 。 然 后 ， 计 算 平 方 亲 和 度 矩阵 ( square 


affinity matrix )。 最 后 ， 用 Affini tyPropagation 类 对 股票 进行 聚 类 分 析 。 
1. 下 载 股 价 数据 。 
使 用 道琼斯 工业 指数 成 分 股 代码 下 载 2011 年 的 股价 数据 。 本 例 中 ， 我 们 只 对 收盘 价 感 兴趣 。 
# 2011 到 2012 


start = datetime.datetime(2011, 01, 01) 
end = datetime.datetime(2012, 01, 01) 


# 道 琼斯 工业 指数 成 分 股 代码 


Symbols = ["AA", "AXP", "BA", "BAC", "CAT", 
ASCOA OV, "DPD", "DES", "Ga wD", 
"HPQ", "IBM", "INTC", "JNJ", "JPM", "KFT", 
Oy "MCD™, MMM, "MRK, NS PR 
"PG "TD, TRV*, UTX", "VE" "WMT", *XOM*] 

quotes = [finance.quotes historical yahoo 


(symbol, start, end, asobject=True) 
for symbol in symbols] 


close = numpy.array([gq.close for q in gquotes]) .astype (numpy.float) 


2. 计算 亲 和 度 矩阵 。 


把 对 数 收益 率 作 为 度量 值 , 计算 不 同 股票 之 间 的 相似 度 。 我 们 试图 做 的 是 计算 数据 点 之 间 的 
欧式 距离 。 


logreturns = numpy.diff (numpy.1log(close)) 
print logreturns.shape 


logreturns_norms = numpy.sum(logreturns ** 2, axis=1) 
S = - logreturns norms[:, numpy.newaxis] - 
logreturns_norms [numpy .newaxis, :] + 2 * 
numpy.dot (logreturns, logreturns.T) 


3. 股票 的 聚 类 分 析 。 


把 上 一 步 得 到 的 结果 提供 给 AffinityPropagation 类 。 该 类 用 来 给 数据 点 做 标记 ， 在 本 例 
中 就 是 给 股票 标记 适当 的 复 号 。 


aff _ pro = Sklearn.cluster.AffinityPropagation().fit(S) 
labels = aff pro.labels_ 


for i in xrange(len(labels)): 
print '%s in Cluster %d' % (symbols[i], labels[i]) 
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完整 的 聚 类 程序 如 下 。 


import datetime 

import numpy 

import sklearn.cluster 

from matplotlib import finance 


#1 。 下载 股价 数据 
# 2011 到 2012 
start = datetime.datetime(2011, 01, 01) 


end = datetime.datetime(2012, 01, 01) 


# 道 琼斯 工业 指数 成 分 股 代码 


Symbols ss [LAA TAXPT BEA, BAC™T, "CAT™, 
CSCO “CVE, "DPD", "DIg", "GRE", "HD'", 
"HPQ", "IBM", "INTC", "JNJ", "JPM", "KFT", 
RO®, "MED”, MMM”, “MRK”, "MSBPFT”, PPE™., 
和 
quotes = [finance.quotes historical yahoo(symbol, start, end, asobject=True) 


for symbol in symbols] 


close = numpy.array([gq.close for q in quotes]) .astype (numpy.float) 
print close.shape 


#2 .计算 亲 和 度 矩阵 
logreturns = numpy.diff (numpy.1log(close)) 
print logreturns.shape 


logreturns_ norms = numpy.sum(logreturns ** 2, axis=1) 
S = - logreturns norms[:, numpy.newaxis] - logreturns norms[numpy.newaxis, :] + 2 * 
numpy.dot (logreturns, logreturns.T) 


#3 . 亲 和 传 播 聚 类 
aff_ pro = sklearn.cluster.AffinityPropagation().fit(s) 
labels = aff_pro.labels_ 


for i in xrange(len(labels)): 
print '%s in Cluster %d' % (symbols[i], labels[i]) 


程序 的 输出 结果 列 出 了 股票 代码 及 其 对 应 的 簇 号 ， 如 下 所 示 。 


(30, 252) 

(30, 251) 

AA in Cluster 0 
AXP in Cluster 6 
BA in Cluster 6 
BAC in Cluster 1 
CAT in Cluster 6 
CSCO in Cluster 2 
CVX in Cluster 7 
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DD in Cluster 6 
DIS in Cluster 6 
GE in Cluster 6 
HD in Cluster 5 
HPQ in Cluster 3 
IBM in Cluster 5 
INTC in Cluster 6 
JNJ in Cluster 5 
JPM in Cluster 4 
KFT in Cluster 5 
KO in Cluster 5 
MCD in Cluster 5 
MMM in Cluster 6 
MRK in Cluster 5 
MSFT in Cluster 5 
PFE in Cluster 7 
PG in Cluster 5 
T in Cluster 5 
TRV in Cluster 5 
UTX in Cluster 6 
VzZ in Cluster 5 
WMT in Cluster 5 
XOM in Cluster 7 


10.4.2 ”攻略 小 结 


下 表 的 内 容 是 对 本 攻略 所 用 函数 的 概述 。 


函 数 功能 描述 


sklearn.cluster.AffinityPropagation() 创建 一 个 AffinityPropagation 对 象 


sklearn.cluster.AffinityPropagation.fit 用 欧式 距离 计算 亲 和 度 和 矩阵， 并 应 用 亲 和 传 播 聚 类 算法 
计算 NumPy 数 组 中 数字 间 的 差 值 。 如 果 没 有 特别 指明 ， 默 
认 计 算 一 阶 差分 
1og 计算 NumPy 数 组 中 各 个 元 素 的 自然 对 数 

sum 对 NumPy 数 组 中 的 各 个 元 素 求 和 

dot 对 二 维 数组 ， 做 矩阵 乘法 。 对 一 维 数组 ， 则 做 内 积 运算 


昌 半 下 下 


10.5 ”安装 scikits-statsmodels 


scikits-statsmodels 包 聚焦 于 统计 建 模 。 它 可 以 方便 地 与 NumPy 和 Pandas 集 成 (关于 Pandas 
的 更 多 内 容 将 在 后 续 攻 略 中 介绍 )。 
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具体 步骤 


可 以 从 http://statsmodels. 0 net/install.html 下 载 scikits-statsmodels 的 源 代 码 和 二 进 制 
安装 文件 。 如 果 选 择 从 源 文件 安装 ， 你 需要 运行 如 下 命令 。 


python setup.py install 


如 果 使 用 setuptools 安 装 ， 相 应 的 安装 命令 是 : 


easy_install statsmodels 


10.6 用 scikits-statsmodels 做 正 态 性 检验 


scikits-statsmodels 包 宫 括 了 大 量 的 统计 检验 方法 。 作 为 范例 ,我 们 将 介绍 正 态 性 Anderson- 
Darling 检 验 ( http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test )。 


10.6.1 具体 步骤 


和 上 一 篇 攻略 一 样 ， 我 们 将 下 载 股价 数据 , 但 只 需要 下 载 一 支 股票 的 数据 。 然 后 我 们 将 计算 
这 支 股票 收盘 价 的 对 数 收益 率 ， 并 且 把 计算 结果 作为 正 态 性 检验 函数 的 输入 数据 。 


该 函数 返回 一 个 元 组 ， 元 组 中 的 第 二 个 元 素 是 一 个 取 值 在 0 到 1 之 间 的 p 值 (p-value )。 
本 攻略 的 完整 代码 如 下 。 


import datetime 

import numpy 

from matplotlib import finance 

from statsmodels.stats.adnorm import normal ad 
import sys 


#1 .下 载 股价 数据 
# 2011 到 2012 
start = datetime.datetime(2011, 01, 01) 


end = datetime.datetime(2012, 01, 01) 


print "Retrieving data for", sys.argv[1] 
quotes = finance.quotes historical yahoo(sys.argv[l1], start, end, asobject=True) 


close = numpy.array (quotes.close) .astype (numpy .float) 
print close.shape 


print normal_ ad (numpy.diff (numpy.log(close))) 
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该 脚本 的 输出 结果 如 下 所 示 。 我 们 得 到 的 p 值 是 0.13。 


Retrieving data for AAPL 
(252,) 
(0.57103805516803163, 0.13725944999430437) 


10.6.2 ”攻略 小 结 

本 攻略 示范 了 怎样 用 scikits-statsmodels 中 的 Anderson-Darling 统 计 检 验方 法 做 正 态 性 检验 。 我 
们 把 不 符合 正 态 分 布 的 股价 数据 作为 Anderson-Darling 检 验 函 数 的 输入 ， 得 到 的 p 值 是 0.13 ， 这 一 
结果 也 证 实 了 我 们 的 假设 。 


10.7 ”安装 scikits-image 


scikits-image 是 一 个 图 像 处 理工 具 包 ， 需 要 用 到 PIL 、SciPy、Cython 和 NumPy。 该 软件 包 有 
Windows 版 本 的 安装 文件 可 用 。 在 EPD ( Enthought Python Distribution ) 和 Python(x, y) 发 行 版 中 已 
经 包含 了 该 软件 包 。 


具体 步骤 

可 以 用 以 下 两 条 命令 之 一 完成 安装 。” 

pip install -U scikits-image 

easy_install -U scikits-image 

你 可 能 需要 以 root 身 份 运行 上 述 命令 。 

你 也 可 以 通过 复制 Git 版 本 库 的 方式 获得 最 新 的 开发 版 本 ,或 者 从 Github 以 zip 文 件 的 方式 下 
载 版 本 库 。 之 后 ， 你 需要 运行 如 下 命令 。 


python setup.py install 


10.8 检测 角 点 


角 点 检测 ( http://en.wikipedia.org/wiki/Corner_detection ) 是 计算 机 视觉 领域 的 一 项 基本 技术 。 
角 点 检测 是 相当 复杂 的 ， 而 scikit-image 提 供 了 Harris 角 点 检测 器 ， 这 真是 太 棒 了 。 显 然 ， 我 们 也 
可 以 选择 从 头 开始 自己 来 实现 角 点 检测 算法 ， 但 那样 将 违背 “不 做 无 谓 的 重复 劳动 ”( not 
reinventing the wheel ) 的 基本 准则 。 


译 者 注 


GD scikits-image 已 经 更 名 为 scikit-image。 下 载 最 新 版 本 时 需要 用 scikit-image。 
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10.8.1 准备 工作 


你 可 能 需要 先 安装 jpeglib ， 以 便 加 载 scikit-learn 中 JPEG 格 式 的 图 像 。 在 Windows 系 统 中 ， 可 
以 使 用 安装 文件 安装 jpeglib。 和 否则 需要 下 载 jpeglib 的 发 行 版 ， 解 压缩 后 在 主 目录 中 用 如 下 命令 完 
成 构建 和 安装 

./configure 


make 
sudo make install 


10.8.2 ”具体 步骤 


我 们 将 从 scikitlearn 加 载 一 幅 范 例 图 像 。 这 一 步 不 是 绝对 必要 的 ， 你 也 可 以 使 用 任何 其 他 的 
图 像 蔡 代 。 


1. 加 载 范例 图 像 。 


scikit-learn 当 前 包含 了 两 幅 JPEG 格 式 的 范例 图 像 ， 存 储 在 一 个 数据 集结 构 中 。 我 们 只 加 载 第 
一 幅 图 像 。 


dataset = load sample images() 
img = dataset.images[0] 


2., 检测 角 点 Wo 
调用 harris 函 数 "， 用 来 获取 角 点 坐标 。 


harris_coords = harris (img) 
print "Harris coords shape", harris_coords.shape 
y, xX = numpy.transpose (harris_coords) 


角 点 检测 的 完整 代码 如 下 。 


from sklearn.datasets import load sample_ images 

from matplotlib.pyplot import imshow, show, axis, plot 
import numpy 

from skimage.feature import harris 


dataset = load sample images () 

img = dataset.images[0] 

harris_coords = harris (img) 

print "Harris coords shape", harris_coords.shape 
y, x = numpy.transpose (harris_coords) 


@ 运行 环境 中 的 scikitimage 版 本 号 为 0.6、0.7 时 ， 该 程序 运行 正常 。0.8 及 之 后 的 版 本 去 掉 了 harris 函 数 ， 需 要 改 


corner _harris 了 末 数 和 corner_peaks 子 数 。 一 一 译 者 注 


二 
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axis('off') 
imshow (img) 

Blot (x, Y, "ro") 
Show() 


在 我 们 得 到 的 图 像 中 ， 检 测 到 的 角 点 被 标记 为 红 点 ， 具 体 如 下 图 所 示 。 


10.8.3 攻略 小 结 


我 们 把 Harris 角 点 检测 算法 应 用 于 scikit-learn 中 的 一 幅 范 例 图 像 。 如 你 所 见 , 检测 结果 是 相当 
令 人 满意 的 。 因 为 角 点 检测 算法 其 实 就 是 一 个 直截了当 的 线性 代数 类 型 的 计算 , 所 以 我 们 也 可 以 
只 用 NumPy 来 做 相同 的 事情 , 但 代码 看 上 去 会 非常 混乱 。scikit-image 工 具 包 中 有 很 多 类 似 的 函数 
可 用 ， 所 以 当 你 需要 编写 一 个 图 像 处 理 程序 时 ， 最 好 先 查 看 一 下 scikit-image 的 文档 。 


10.9 检测 边缘 


边缘 检测 ( http://en.wikipedia.org/wiki/Edge_detection ) 是 另 一 项 流行 的 图 像 处理 技 术 。 
scikit-image 实 现 了 一 个 Canny 滤 波 器 。 该 滤波 絮 基 于 高 斯 分 布 的 标准 差 ， 可 以 直接 用 来 做 边缘 检 
测 。 除 了 二 维 数 组 中 的 图 像 数据 ， 该 滤波 器 还 接受 下 列 参数 : 
口 高 斯 分 布 的 标准 差 
口 下 边界 阔 值 
口 上 边界 阔 值 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


10.10 安装 Pandas 163 


具体 步骤 


我 们 使 用 的 图 像 和 上 一 攻略 相同 ， 代 码 实现 也 基本 相同 。 你 只 需要 特别 注意 调用 Canny 滤 波 
带 函 数 的 那 一 行 代码 。 


from sklearn.datasets import load sample_ images 
from matplotlib.pyplot import imshow, show, axis 
import numpy 

import skimage.filter 


dataset = load sample images() 

img = dataset.images[0] 

edges = skimage.filter.canny (img[..., 0], 2, 0.3, 0.2) 
axis('off') 

imshow (edges) 

Show() 


上 述 代码 生成 了 一 幅 由 原始 图 像 中 的 边缘 构成 的 图 像 ， 具 体 如 下 图 所 示 。 


10.10 ”安装 Pandas 


Pandas 是 Python 的 一 个 数据 分 析 库 。Pandas 和 有 R 编 程 语言 有 几 分 相似 ， 这 不 是 巧合 。R 是 为 广 
大 数据 分 析 专 家 所 喜爱 的 专用 编程 语言 .Pandas 中 核心 的 pataFzrame 对 象 ,其 设计 灵感 就 来 源 于 R。 


具体 步骤 


Pandas 项 目 在 PyPi 上 对 应 的 包 名 就 是 pandas。 运 行 以 下 两 条 命令 之 一 完成 安装 。 
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sudo easy_ install -U pandas 
pip install pandas 


如 果 你 在 使 用 Linux 的 包 管 理 器 ， 需 要 安装 python-pandas 项 目 。 例 如 ， 在 Ubuntu 中 ， 需 要 运 


行 如 下 命令 。 


sudo apt-get install python-pandas 


你 也 可 以 选择 从 源 文件 安装 ， 这 需要 用 到 Git。 


git clone git://github.com/pydata/pandas .git 
cd pandas 
python setup.py install 


10.11 用 Pandas 估计 股票 收益 的 相关 性 


Pandas 中 的 DataFrame 是 一 个 兼 有 和 矩阵 和 字典 特征 的 数据 结构 ， 其 功能 类 似 于 R 中 的 


dataframe。 实 际 上 ，DataFrame 是 Pandas 中 的 核心 数据 结构 ， 你 可 以 对 其 做 各 种 操作 。 进 行 投资 
组 合 分 析 时 ， 经常 需要 计算 投资 组 合 的 相关 矩阵， 本 攻略 将 对 此 予以 介绍 。 


10.11.1 具体 步骤 


建 : 


首先 ,创建 一 个 字典 对 象 ， 其 成 员 是 每 支 股 票 的 日 收益 率 数据 。 然 后 ， 以 日 期 为 行 标签 ， 创 


DataFzame 对 象 。 最 后 ， 计 算 相关 和 矩阵 并 绘制 结果 。 


1. 创建 pataFrame 对 象 。 
为 了 创建 DataFrame 对 象 ， 需 要 先 创建 一 个 字典 。 该 字典 对 象 以 股票 代码 为 索引 关键 字 


( 键 )， 对 应 的 值 是 该 股 的 对 数 收 益 率 。 该 DataFrame 对 象 以 日 期 为 索引 ( 行 标签 )， 以 股票 代 
码 为 列 标签 。 


data = {} 


for i in xrange(len(symbols)): 
data[lsymbols[i]] = numpy.diff (numpy.log(close[i])) 


df = pandas.DataFrame (data, 
index=dates[0][:-1], columns=symbols) 


2. 操作 DataFrame 对 象 。 


现在 可 以 对 DataFrame 对 象 做 各 种 操作 ， 例 如 计算 相关 矩阵 或 绘 


内 


print df.corr() 
df.plot() 
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包括 下 载 股 价 数据 在 内 的 完整 代码 如 下 。 


import pandas 

from matplotlib.pyplot import show, legend 
from datetime import datetime 

from matplotlib import finance 

import numpy 


# 2011 到 2012 
start = datetime(2011, 01, 01) 
end = datetime(2012, 01, 01) 


symbols = ["AA", "AXP", "BA", "BAC", "CAT"] 


quotes = [finance.quotes historical yahoo(symbol, start, end, asobject=True) 


for symbol in symbols] 


close = numpy.array([gq.close for q in quotes]) .astype (numpy.float) 
numpy.array ([q.date for gq in quotes]) 


dates 


data = {} 


for i in xrange(len(symbols)): 
data[lsymbols[i]] = numpy.diff (numpy.log(close[i])) 


df = pandas.DataFrame (data, index=dates[0][:-1], columns=symbols) 


DELnt dE COrr() 
dE.PLl1ot() 
legend (symbols) 
Show() 


相关 矩 阵 的 输出 结果 如 下 。 


AA AXP BA BAC CRAT 
AA 1.000000 0.768484 0.758264 0.737625 0.837643 
AXP 0.768484 1.000000 0.746898 0.760043 0.736337 
BA 0.758264 0.746898 1.000000 0.657075 0.770696 
BAC 0.737625 0.760043 0.657075 1.000000 0.657113 
CAT 0.837643 0.736337 0.770696 0.657113 1.000000 


上 述 五 文 股票 的 对 数 收益 率 图 示 如 下 。 
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10.11.2 ”攻略 小 结 
我 们 用 到 了 DataFrame 对 象 的 下 列 方法 。 


方法 名 功能 描述 
pandas .DataFrame 用 指定 的 数据 、 索 引 行 标签 ) 和 列 标签 构造 DataFrame 对 象 


pandas .DataFrame.corr 各 个 列 两 两 之 间 计 算 相 关系 数 ， 计 算 过 程 忽略 缺失 值 。 默 认 使 用 Pearson 相 关系 数 


pandas .DataFrame.plot jMatplotlib 绘 制 DataFrame 对 象 


10.12 从 statsmodels 加 载 数据 到 pandas 对 象 


Statsmodels 的 发 行 版 中 有 很 多 的 范例 数据 集 。 可 以 在 https://github.com/statsmodels/ 
statsmodels/tree/master/statsmodels/datasets 找 到 这 些 数据 集 的 完整 列表 。 


在 本 攻略 中 , 我 们 将 聚焦 copper 数 据 集 , 其 中 包含 的 信息 有 : 铜价 、 全 球 铜 消 费 量 和 其 他 参数 。 


10.12.1 准备 工作 


你 可 能 需要 先 安装 patsy。 判 断 是 否 需 要 安装 patsy 很 容易 ， 只 需 运 行 一 下 本 攻略 的 完整 代码 。 
如 果 得 到 的 运行 结果 是 和 pasty 有 关 的 错误 信息 ， 则 需要 执行 如 下 两 条 命令 之 一 。 
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sudo easy_instalL1 patsy 
pip install --upgrade patsy 


10.12.2 具体 步骤 
在 本 节 中 ， 你 将 看 到 怎样 从 statsmodels 加 载 数据 集 到 Pandas 的 DataFrame 对 象 或 series 对 象 。 
1. 加 载 数据 。 
需要 调用 的 函数 是 loaa_panadas。 用 如 下 语句 加 载 数据 。 


data = statsmodels.api.datasets.copper.1load pandas() 
这 将 生成 一 个 Dataset 对 象 ， 数 据 被 加 载 到 了 该 对 象 包含 的 pandas 对 象 中 。 
2. 拟 合 数据 。 


对 于 数据 以 pandqas 对 象 加 载 的 情况 ， 使 用 Dataset 对 象 的 exog 属 性 ， 可 以 获得 一 个 多 列 
的 DataFrame 对 象 。 此 外 对 于 本 例 的 情况 ,DataSet 对 象 的 endog 属 性 包含 了 全 球 铜 消费 量 的 
数据 。 


采用 最 小 二 乘 拟 合 ， 创 建 一 个 oLSs ( ordinary least squares ) 对 象 ， 并 调用 其 fit 方 法 。 


X，Y = data.exog, data.endog 


fit = statsmodels.api.0OLS(y, x) .fit() 
print "Fit params", fit.params 


打印 出 拟 合 的 参数 ， 如 下 所 示 。 


Fit params COPPERPRICE 14.222028 
INCOMEINDEX 1693.166242 
ALUMPRICE -60.638117 
INVENTORYINDEX 2515.374903 
TIME 183.193035 


3. 汇总 结果 。 
使 用 summary 方 法 ， 对 最 小 二 乘 拟 合 的 结果 进行 汇总 ， 如 下 所 示 。 


print fit.summary() 


打印 出 回归 分 析 的 结果 。 
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0LS Regression Results 

Dep. Variable: WORLDCONSUMPTION  R-squared: 0.978 
Model : OLS Adj. R-squared : 0.974 
Method : Least Squares F-statistic: 224.9 
Date: Fri, 28 Sep 2012 Prob (F-statistic): 2.55e-16 
Time: 20:25:26 Log-Likelihood: -172.62 
No. Observations: 2 AIC: 35532 
Df Residuals: 20 BIC: 361.3 
Df Model: 4 

coef std err t P>1t| [95.0% Conf. Int.] 
COPPERPRICE 14.2220 12.096 1.176 0.253 -10.998 39 .442 
INCOMEINDEX 1693.1662 1970.555 0.859 0.400 -2417.339 5803.671 
ALUMPRICE -60.6381 32.023 -1.894 0.073 -127.437 6.161 
INVENTORYINDEX 2515.3749 1670.948 1.505 0.148 -970.162 6000.912 
TIME 183.1930 36.879 4.967 0.000 106.264 260.122 
Omnibus: 8.007 Durbin-Watson: 1.316 
Prob(Omnibus): 0.018 Jarque-Bera (JB): 6.014 
Skew: -0.936 Prob(CJB): 0.0494 
Kurtosis: 4.506 Cond. No. 2.20e+03 
The condition number is large, 2.2e+03. This might indicate that there are 
strong multicollinearity or other numerical problems. 


加 载 copper 数 据 集 的 完整 代码 如 下 。 


import statsmodels.api 


# 请 见 https://github.com/statsmodels/statsmodels/tree/master/statsmodels/datasets 
data = statsmodels.api.datasets.copper.1load pandas() 


x, y = data.exog, data.endog 


fit = statsmodels.api.OLS(y, x) .fit() 
print "Fit params", fit.params 

print 

print "Summary" 

ei 

print fit.summary () 


10.12.3 ”攻略 小 结 


statsmodels 中 的 Dataset 类 采用 了 特殊 的 数据 存储 格式 ， 这 其 中 就 包括 endog 和 exog 


必 


性 。statsmodels 中 有 一 个 loadq 函 数 ， 用 来 把 数据 加 载 到 NumPy 数 组 中 。 而 本 攻略 选用 的 
load_pandas 方 法 , 则 是 用 来 把 数据 加 载 到 pandqas 对 象 中 。 我 们 对 这 些 数据 做 了 最 小 二 乘 拟 合 ， 
得 到 了 铜价 和 消费 量 之 间 关 系 的 统计 模型 。 
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10.13” 重 采样 时 间 序 列 数 据 
在 本 攻略 中 ， 我 们 将 学 习 怎 样 使 用 Pandas 重 采样 时 间 序 列 数 据 。 


10.13.1 具体 步骤 


我 们 将 下 载 AAPL 股 票 每 日 股价 的 时 间 序 列 数 据 ， 然 后 通过 计算 平均 值 的 方式 ， 对 这 些 数据 
做 重 采样 处 理 。 为 此 ， 我 们 将 创建 一 个 Pandas 的 DataFrame 对 象 ， 并 调用 它 的 resample 方 法 。 


1. 创建 一 个 日 期 时 间 索 引 对 象 。 


在 创建 Pandas 的 DataFrame 对 象 之 前 ， 需 要 先 创 建 一 个 日 期 时 间 索 引 (DatetimeIndex ) 
对 象 。 这 个 DatetimeIndex 对 象 将 被 作为 索引 传递 给 DataFrame 的 构造 函数 。 用 如 下 语句 从 下 
载 的 股价 数据 创建 日 期 时 间 索 引 对 象 。 


dt_idx = pandas.DatetimeIndex (quotes.date) 


2. 创建 DataFrame 对 象 。 
用 日 期 时 间 索 引 对 象 和 收盘 价 数据 创建 一 个 DataFrame 对 象 。 


df = pandas.DataFrame (quotes.close, index=dt_idx, 
columns=[symbol]) 


3. 重 采 样 。 
以 每 月 一 次 的 频率 ， 通 过 计算 平均 值 的 方式 ， 重 采样 时 间 序 列 数 据 。 


resampled = df.resample('M', how=numpy .mean) 
print resampled 


重 采 样 后 的 时 间 序 列 中 ， 每 月 只 有 一 个 数据 ， 如 下 所 示 。 


AAPL 
2011-01-31 336.932500 
2011-02-28 349.680526 
2011-03-31 346.005652 
2011-04-30 338.960000 
2011-05-31 340.324286 
2011-06-30 329.664545 
2011-07-31 370.647000 
2011-08-31 375.151304 
2011-09-30 390.816190 
2011-10-31 395.532381 
2011-11-30 383.170476 
2011-12-31 391.251429 
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4. 绘 
用 DataFrame 的 plot 方 法 ， 绘 制 数据 。 
站 


resampled.plot() 
Show() 


用 原始 时 间 序 列 绘图 后 的 结果 如 下 图 所 示 。 
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重 采 样 后 的 时 间 序 列 数据 点 较 少 ， 因 此 用 该 序列 绘制 的 曲线 看 上 去 不 太 连 贯 ， 如 下 图 所 示 。 
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完整 的 重 采样 代码 如 下 。 


import pandas 

from matplotlib.pyplot import show, legend 
from datetime import datetime 

from matplotlib import finance 

import numpy 


# 下 载 2011 年 到 2012 年 的 AAPL 股 价 数据 
start = datetime(2011, 01, 01) 
end = datetime(2012, 01, 01) 


symbol = "AAPL" 
Guotes = finance.quotes historical yahoo(symbol, start, end, asobject=True) 


# 创建 日 期 时 间 索 引 对 象 
dt_idx = pandas.DatetimeIndex (quotes.date) 


# 创建 DataFrame 对 象 
df = pandqas .DataFrame (quotes.close, index=dt_idx, columns=[symbol]) 


# 以 每 月 一 次 的 频率 重 采样 
resampled = df.resample('M', how=numpy .mean) 
print resampled 


# 绘图 
oa 的 | 
resampled.plot() 


Show() 


10.13.2 ”攻略 小 结 


我 们 用 日 期 和 时 间 列 表 ， 创 建 了 一 个 日 期 时 间 索 引 对 象 。 该 索引 对 象 被 用 来 创建 Pandas 的 
DataFrame 对 象 。 我 们 对 时 间 序 列 数据 进行 了 重 采 样 , 重 采 样 的 频率 通过 一 个 单字 符 的 参数 给 出 : 


口 D， 每 天 一 次 
口 M， 每 月 一 次 
口 A， 每 年 一 次 


resample 方 法 中 的 how 参 数 指明 了 具体 的 重 采样 方式 ， 默 认 的 重 采样 方式 是 计算 平均 值 。 
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欧 拉 常数 , 148 
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pandas .DataFrame 方 法 , 164, 165, 166, 169, 171 

pandas .DataFrame .corr 方 法 , 166 

pandas .DataFrame .plot 方 法 , 166 

PiCloud, 63, 78, 79, 80 

polyfit 了 因数 ,40, 54, 55, 116, 117, 118 

polyval 捕 数 , 117, 118 

日 累 托 法 则 , 53 
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randint 国 数 ,40, 59, 60, 61, 82, 84, 85, 107, 121, 122 

randn 了 加 数 , 61 

random_integers 图 数 , 82, 84, 85, 89, 90, 91, 94, 96, 116， 
117, 118 

ravel 国 数 , 40, 45, 46, 47 

zepeat 国 数 , 22, 23, 25, 91, 92 

resample 方 法 , 169, 171 


savemat 子 数 , 68, 69 

scipy.io.wavfile.read 国 数 ,37, 39, 93, 98 

scipy.io.wavfile.write 国 数 ,38, 39, 93, 96, 97, 99 

scipy.signal.iirdesign 国 数 ,97, 98, 99 

semilogx 子 数 , 117, 118 

sklearn.cluster.AffinityPropagation 困 数 ，156， 
157, 158 

sklearn.cluster.AffinityPropagation.f 让 函数 ,158 

splitlines 国 数 , 106 

subplot 了 羡 数 , 23, 25, 27, 29, 33, 34, 37, 38, 39, 86, 87, 88, 
89, 91, 93, 98, 99, 100, 101, 107, 111 

时 间 序 列 数据 , 153, 169, 170, 171 

视图 , 19, 25, 26, 27, 105 

数 独 , 19, 34, 35, 37 

数组 接口 , 63, 66, 67 

斯 特 灵 近似 方法 , 150, 152 


随机 和 矩阵, 48, 49, 50 
索 贝 尔 滤 波 器 , 81, 99, 100, 101 
索 贝 尔 算 子 , 99 


tofile 国 数 , 83, 85 
特征 向 量 , 48, 51, 52 
通用 函数 , 102, 103, 105 
图 像 , 8, 11, 19, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 33, 34, 64， 
65, 66, 67, 81, 82, 83, 85, 86, 87, 88, 89, 91, 99, 100, 101, 
106, 107, 153, 155, 160, 161, 162, 163 
合并 图 像 , 81, 85 
加 载 图 像 到 内 存 映射 区 , 81 
图 像 的 模糊 化 处 理 , 81, 89 
调整 图 像 大 小 , 19, 22 


区 | 


U 


unittest.assertEqual 羡 数 , 136 
unittest.assertRaises 子 数 , 136 


W 
位 置 列表 , 19, 31 
稳 态 , 40, 48 
无 限 冲 激 响应 , 97 

X 
行为 驱动 开发 , 127, 139 
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音频 滤波 器 , 81, 96, 98 
用 广播 机 制 扩展 数组 , 19, 37 
元 组 , 28, 34, 49, 155, 159 


质 因 数 , 40, 44, 45 
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“本 书写 得 非常 棒 ， 它 能 告诉 你 使 用 NumPy 时 的 常见 问题 ， 并 列 出 了 简明 的 解决 方案 。 这 些 方案 并 非 仅 针 
对 你 眼下 遇 到 的 难题 ， 而 是 为 你 打开 了 一 扇 门 ， 让 你 能 够 洞察 NumPy 世 界 的 深邃 迷人 之 处 。” 

“我 刚刚 开始 学 习 使 用 Python、NumPy、SciPy 和 Matplotlib ， 本 书 给 了 我 巨大 的 帮助 ! 我 觉得 书 中 的 示例 非 
常 详尽 ， 并 且 覆 盖 了 非常 宽 的 领域 。 这 些 领域 也 许 你 不 会 全 部 感 兴趣 ,但 其 中 用 到 的 技术 可 以 轻松 解决 你 目前 遇 
到 的 各 种 问题 ， 为 你 节省 大 量 时 间 。” 

“ 书 中 的 攻略 详尽 而 且 具 体 ， 对 Python 和 NumPy 的 学 习 大 有 神 益 。 其 示例 丰富 至 极 ， 能 够 帮助 你 拓展 思 
维 ， 让 你 明白 NumPy 的 适用 之 处 ， 这 点 非常 令 人 振奋 ! 未 来 我 会 一 直 使 用 这 本 极 佳 的 参考 书 ! ” 


亚马逊 读者 评论 


学 习 高 级 索引 技术 和 线性 代数 知识 
了 解数 组 形状 及 图 像 大 小 的 调整 


探 察 广播 机 制 和 直方 图 
分 析 NumPy 代 码 并 用 可 视 化 的 方式 表示 分 析 结 果 

用 Cython 为 代码 提速 

使 用 数组 接口 共享 数据 


使 用 通用 函数 和 互 操作 功能 
学 习 Matplotlib 以 及 经 常 和 NumPy 同 时 使 用 的 SciPy 
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入 
灵 仁 区 
前 沿 的 T 类 电子 书 发 售 平台 


出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 犹 。 ”图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 
珍 和 得 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行动 拥抱 这 个 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 得 网 上 
出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 。 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模 
版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 DRM-free 的 阅读 。 式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 以 较 
ee 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 
| 往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 
相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势。 它 不 仅 发 大 出版 全 得 全、 译 、 编 、 读 的 交流 更 为 便 ， 避 以 
布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 《即使 胆识 向 形 扩 稿 中 的 引 齐 ”明天 得 | 三 机 但 江 Sr 
有 的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 可 以 方便 地 进 ea 
行 搜 索 、 剪 贴 、 复 制 和 打印 。 质量 。 


最 方便 的 开放 出 版 平台 最 直接 的 读者 交流 平 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 


版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 你 就 能 联 。 。” 误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 员 和 
合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 
的 形式 提供 给 读者 。 (收费 形式 须 经 过 图 灵 社 区 立项 银子 。 

评审 。) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 

的 意愿 ， 图 灵 社 区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 。 。 ”你 可 以 积极 参与 社区 经 常 开展 的 访 痰 、 审 读 、 评 先 
ee A 等 多 种 活动 ， 赢 取 积分 和 银子 ， 积 累 个 人 声望 。 


灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 
社区 公布 。 如 果 你 有 意 翻 译 哪 本 图 书 ， 欢 迎 你 来 社区 
申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 
译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 
需要 有 坚强 的 妆 力 的 。 
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